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内 容 提 要 


本 书 介绍 了 使 用 Python 进行 数据 分 析 和 高 效 的 机 器 学 习 ， 首 先 从 一 节 Python 速成 课 开 始 ， 然 后 回顾 
统计 学 和 概率 论 的 基础 知识 ， 接 着 深入 讨论 与 数据 挖掘 和 机 器 学 习 相 关 的 60 多 个 主题 ， 包 括 贝 叶 斯 定理 、 
聚 类 、 决 策 树 、 回 归 分 析 、 实 验 设计 等 。 

本 书 适合 有 一 定 Python 编程 基础 ， 想 要 了 解数 据 分 析 和 机 器 学 习 的 读者 阅读 。 
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当今 世界 , 高 科技 行业 的 数据 科学 家 是 回报 最 为 丰厚 的 职业 之 一 。 我 仔细 地 研究 了 高 科技 公 
司 中 数据 科学 家 的 职位 描述 ， 并 根据 其 职位 要 求 确定 了 本 书 内 容 。 


本 书 内 容 非常 全 面 ， 从 一 节 Python 速成 课 开 始 ， 然 后 回顾 统计 学 和 概率 论 的 基础 知识 ， 接 
着 深入 讨论 与 数据 挖 据 和 机 器 学 习 相关 的 60 多 个 主题 。 这 些 主题 包括 贝 叶 斯 定理 、 聚 类 、 决 策 
树 、 回 归 分 析 、 实 验 设 计 等 ， 其 中 有 些 内 容 非 常 有 意思 。 


我 们 将 使 用 真实 的 电影 评分 数据 创建 一 个 电影 推荐 系统 , 还 会 创建 一 个 能 实际 运行 的 维基 百 
科 数 据 搜索 引擎 。 此 外 , 我 们 还 将 构建 一 个 垃圾 邮件 分 类 器 ,， 它 可 以 对 邮件 账户 中 的 垃圾 邮件 和 
正常 邮件 进行 正确 的 分 类 。 本 书 还 会 专门 用 一 童 介绍 如 何 将 这 个 分 类 器 扩展 到 使 用 Apache Spark 
的 大 数据 集群 系统 上 。 


如 果 你 是 希望 转型 为 数据 科学 家 的 软件 开发 人 员 或 程序 员 , 那么 从 本 书 中 可 以 学 到 当下 最 热 
门 的 技能 , 掌握 这 些 技能 并 不 需要 你 具有 高 深 的 数学 背景 ,当然 你 也 就 不 能 以 数学 不 好 作为 托 词 
了 。 我 们 会 解释 相关 的 概念 ， 并 提供 一 些 确实 有 效 的 Python 代码 。 你 可 以 仔细 研究 这 些 代 码 ， 
也 可 以 任意 修改 ,以 此 来 领悟 书 中 概念 。 如 果 你 是 金融 行业 的 数据 分 析 师 ， 本 书 也 可 以 帮 你 转型 
进入 高 科技 行业 。 只 需 一 些 程序 开发 和 脚本 编写 经 验 ， 你 就 可 以 开始 学 习 本 书 了 。 


本 书 通常 会 先 介 绍 概念 , 然后 用 几 方 文字 和 图 形 化 示例 对 其 进行 解释 。 我 会 介绍 数据 科学 家 
言 欢 使 用 的 一 些 表示 方 法 和 时 瞩 术 语 ,让 你 和 他 们 有 共同 语言 ,这些 概 念 本 身 是 非常 简单 易 懂 的 。 
之 后 ， 我 会 提供 一 些 可 以 实际 运行 的 Python 代码 供 你 执行 和 修改 ， 这 样 你 就 可 以 知道 如 何 将 所 
学 的 概念 应 用 到 真实 的 数据 上 了 。 这 些 代码 是 以 IPython Notebook 文件 的 形式 提供 的 ， 这 种 文件 
可 以 将 代码 和 注释 集成 在 一 起 ,其 中 注释 可 以 对 代码 做 出 解释 。 学 完 本 书 之 后 , 你 可 以 将 这 些 文 
件 作为 工作 中 的 快速 参考 。 介 绍 完 每 个 概念 之 后 ， 我 都 会 鼓励 你 仔细 研究 一 下 Python 代码 ， 并 

意 进 行 修改 。 通 过 这 些 实际 的 练习 和 修改 ， 你 会 对 代码 更 熟悉 ， 并 且 更 加 清楚 它们 的 作用 。 




















































































































目标 读者 


如 果 你 是 新 露头 角 的 数据 科学 家 ， 或 是 想 使 用 Python 对 数据 进行 分 析 并 获取 实用 知识 的 数 
据 分 析 师 ， 那 么 本 书 正 是 你 需要 的 。 对 于 那些 具有 Python 编程 经 验 并 想 进 入 数据 科学 领域 淘金 


















































的 程序 员 来 说 ， 本 书 也 会 使 他 们 受益 菲 浅 。 


排版 约定 


本 书 使 用 了 不 同 的 文本 样式 来 区 分 不 同 种 类 的 信息 。 下 面 给 出 了 儿 种 样式 示例 , 并 对 其 含义 
进行 了 解释 。 











文本 中 的 代码 、 数 据 库 表 名 、 虚 拟 URL 和 用 户 输入 都 表示 为 :“ 我 们 可 以 使 用 sklearn. 
metrics 中 的 z*2_score() 图 数 来 对 其 进行 测量 。 
以 下 是 一 段 代码 : 


import numpy as np 
import pandas as pd 
from sklearn import tree 

















input_file = "c:/spark/DataScience/PastHires.csv" 
df = pd.read csv(input_file, header = 0) 


如 果 我 们 想 让 你 特别 注意 代码 段 中 的 某 个 部 分 ， 就 会 将 相关 的 行 或 项 目 用 粗 体 表示 : 
import numpy as np 


import pandas as pd 
from sklearn import tree 


input_ file = "c:/spark/DataScience/PastHires.csv" 
df = pd.read csv(input_file, header = 0) 


所 有 命令 行 输入 和 输出 都 如 下 所 示 : 


Spark-submit SparkKMeans .pyY 





























新 名 词 和 重点 词 会 以 黑体 显示 。 显 示 融 屏幕 ( 比如 菜单 或 对 话 框 ) 上 的 词 在 文本 中 表示 为 : 
“在 Windows 10 系统 中 ， 你 需要 打开 Start 菜单 ， 然 后 使 用 Windows System | Control Panel 来 
打开 Control Panel。” 


a 警告 或 重要 的 注意 事项 。 
6 提示 或 小 技巧 。 


读者 反馈 


十 分 欢迎 读者 提供 反馈 意见 。 请 让 我 们 知道 你 对 本 书 的 看 法 : 喜欢 哪些 部 分 , 不 喜欢 哪些 部 











分 。 读 者 反馈 对 我 们 非常 重要 ， 因 为 这 可 以 帮助 我 们 编写 出 真正 对 大 家 有 所 神 益 的 图 书 。 
要 想 提 供 反 馈 ， 只 需 发 送 邮件 到 feedback@packtpub.com， 并 在 邮件 标题 中 注 明 书 名 即 可 。 
如 果 你 有 擅长 的 领域 , 想 参与 图 书 编写 或 出 版 , 请 参阅 我 们 的 作者 指南 : www.packtpub.com/ 


authors。 


























客 亡 文 持 
现在 你 已 经 拥有 了 这 本 由 Packt 出 版 的 图 书 ， 我 们 将 提供 一 系列 服务 来 使 你 获得 最 大 收益 。 





下 载 示例 代码 
你 可 以 到 图 灵 社 区 本 书页 面 下 载 代码 文件 ， 网 址 是 http://ituring.cn/book/2426。 
文件 下 载 结束 之 后 ， 请 确定 使 用 以 下 软件 的 最 新 版 本 来 解压 或 提取 文件 。 


口 Windows 系统 : 使 用 WinRAR 或 7-Zip 
口 Mac 系统 : 使 用 Zipeg 、iZip 或 UnRarX 
口 Linux 系统 : 使 用 7-Zip 或 PeaZip 























下 载 本 书 彩色 图 片 


我 们 还 提供 了 一 个 PDF 文件 ， 里 面 有 本 书 所 使 用 的 屏幕 截图 和 图 表 的 彩色 图 片 。 彩 色 图 片 
可 以 帮助 你 更 好 地 理解 输出 的 变化 。 你 同样 可 以 从 图 灵 社 区 本 书页 面 下 载 ， 网址 是 : 
http://ituring.cn/book/2426。 


























勘误 


尽管 我 们 做 了 各 种 努力 来 保证 内 容 的 准确 性 , 但 错误 终 难 避免 。 如 果 你 在 我 们 的 任何 一 本 书 
中 发 现 了 错误 , 不 论 是 正文 中 的 还 是 代码 中 的 ， 都 请 提交 给 我 们 ,我 们 将 非常 感谢 。 通 过 提交 勘 
误 , 不 仅 可 以 提升 其 他 读者 的 阅读 体验 ,还 能 帮助 我 们 在 本 书 的 后 续 版 本 中 做 出 改进 。 不管 你 发 
现 了 什么 错误 ， 都 可 以 通过 http:/www.packtpub.com/submit-errata 这 个 网 址 告诉 我 们 。 首 先 选择 
相应 的 图 书 ， 然 后 点 击 Errata Submission Form 这 个 链接 ， 输 入 勘误 的 具体 细节 即 可 。" 一 旦 勘 
误 校 验 通过 , 你 提供 的 信息 将 被 接受 ,勘误 信息 将 上 传 到 我 们 的 网 站 , 或 者 添加 到 相应 图 书 的 勘 
误 表 中 。 







































































Q@ 本 书 中 文 版 勘误 请 到 http://ituring.cn/book/2426 查看 和 提交 。 一 一 编者 注 














要 想 查看 以 前 提交 的 勘误 信息 ， 请 访问 https://www.packtpub.com/books/content/support， 在 


搜索 框 中 输入 书 名 ， 相 应 信息 就 会 出 现在 Errata 部 分 。 














举报 盗版 
所 有 正版 内 容 在 互联 网 上 都 面临 的 一 个 问题 就 是 侵权 。Packt 严格 保护 版 权 和 授权 。 如 映 
在 网 上 发 现 我 社 图 书 的 任何 形式 的 盗版 , 请 立即 将 地 址 或 网 站 名 称 提供 给 我 们 ， 以 便 我 们 采取 进 
一 步 的 措施 。 
请 将 疑似 侵权 的 网 站 链接 发 送 至 copyright@packtpub.com。 
非常 感谢 你 对 保护 作者 知识 产权 所 做 的 工作 ， 我 们 将 竭诚 为 读者 提供 有 价值 的 内 容 。 


你 














问题 
对 本 书 有 任何 疑问 ， 都 可 以 联系 question@packtpub.com， 我 们 会 尽 最 大 努力 来 解决 问题 。 
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因为 本 书 中 有 很 多 代码 和 样本 数据 , 所 以 我 首先 要 告诉 你 如 何 获取 它们 , 然后 再 进行 下 一 步 。 
我 们 需要 做 一 些 准备 工作 。 当 务 之 急 就 是 获取 学 习 本 书 所 需 的 代码 和 数据 ,这 样 你 就 可 以 “愉快 
地 开始 玩 机 了 ”。 获 取代 码 和 数据 最 简单 的 方法 就 是 按照 本 章 的 指示 去 做 。 









































在 本 章 中 ， 我 们 首先 要 安装 并 准备 好 Python 工作 环境 : 


口 安装 Enthought Canopy; 

口 安装 Python 库 文件 ; 

口 使 用 IPython/Jupyter Notebook; 

口 使 用 、 读 取 和 运行 本 书 中 的 代码 文件 。 


然后 ， 我 们 将 通过 一 节 速 成 课 来 学 习 如 何 理解 Python 代码: 


口 Python 基础 一 一 第 一 部 分 ; 
口 理解 Python 代码 ; 

口 导入 模块 ; 

口 使 用 列表 ; 

口 元 组 ; 

口 Python 基础 一 一 第 二 部 分 ; 
口 运行 Python 脚本 。 











通过 这 一 章 的 学 习 , 你 可 以 搭建 Python 工作 环境 , 熟悉 Python 
开始 数据 科学 的 奇妙 之 旅 了 。 


1.1 安装 Enthought Canopy 








语言 , 然后 就 可 以 使 用 Python 





本 节 介 绍 如 何在 你 的 计算 机 上 安装 Python 环境 ， 以 开发 数据 科学 所 需 的 代码 。 我 们 将 安装 
一 个 称 为 Enthought Canopy 的 软件 包 , 其 中 既 包 括 开 发 环境 ,也 包括 你 需要 预先 安装 的 所 有 Python 





包 , 它 可 以 使 你 的 工作 更 加 容易 。 但 是 ， 如 果 你 之 前 使 用 过 Python 


,那么 你 的 计算 机 上 可 能 已 经 
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存在 Python 环境 了 ， 如 果 你 想 继续 使 用 这 个 环境 ， 或许 也 可 以 。 



































最 重要 的 是 ， 你 的 Python 环境 应 该 是 能 够 支持 Jupyter Notebook 的 Python 3.5 或 更 高 版 本 
(因为 本 书 使 用 的 就 是 Jupyter Notebook )， 而 且 环 境 中 安装 了 本 书 需 要 的 关键 软件 包 。 我 会 通过 
几 个 简单 的 步骤， 精确 地 介绍 如 何 进行 完整 的 安装 ， 这 种 安装 是 非常 简单 的 。 


首先 来 看 一 下 关键 的 软件 包 ,Canopy 会 自动 为 我 们 安装 其 中 的 大 部 分 。 它 将 会 安装 Python 3.5 
以 及 我 们 需要 的 一 些 软件 包 : scikit_learn、xlra 和 statsmodels。 我 们 还 需要 使 用 pip 
命令 ， 手 动 安装 一 个 名 为 pydot2plus 的 包 。 这 就 行 了 ， 使 用 Canopy 就 是 这 么 简单 ! 


如 果 完 成 了 以 下 安装 步 又, 那么 所 需 的 准备 工作 就 全 部 就 绪 , 可 以 打开 一 个 小 示例 文件 , 进 
行 真正 的 数据 科学 工作 了 。 下 面 ， 让 我 们 尽快 完成 所 需 的 准备 工作 。 


(1) 首先， 我 们 需要 一 个 Python 集成 开发 环境 ， 又 称 IDE。 本 书 中 将 使 用 Enthought Canopy。 
这 是 一 种 科学 计算 环境 ， 非 常 适合 本 书 。 
































» One-Click Python Deployment 
* Analysis Environment 

» Development Platform 

» Integrated Training on Demand 


GetCanopy > 





Python Training on Demand Enthought Canopy Python for Excel Software Consulting 
Enthought's mission is to significantly improve the way scientific computing is 


accomplished by providing powerful tools for quantitative data analysis and 
visualization. 


CONSULTING 











(2) 知 要 安装 Canopy， 请 访问 www.enthought.com， 点 击 DOWNLOADS:Canopy。 





DOWNLOADS: 去 Canopy 


CENTH H PRODUCTS TRAINING 
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(3) Enthought Canopy 的 Canopy Express 版 本 是 免费 的 , 本 书 使 用 的 就 是 这 个 版 本 。 你 必须 选 
择 适 合 自己 操作 系统 的 版 本 ， 对 我 来 说 是 Windows 64 位 版 。 你 应 该 点 击 对 应 你 的 操作 系统 和 
Python 3.5 版 的 下 载 按钮 。 























Standard Installers 
v2.13 v1.7.4 Documentation 

Platform Python Released Size MD5 

Linux [64-bit] 2.7 也 download 2017-06-16 697.8 MB 57b828e913e15a6ec12f1eb964138c82 
Linux [64-bit] 35 起 download 2017-06-16 574.8 MB 7412235d9f72acc603df79bfbe706bee 
macOs [64-bit] 2.7 起 download 2017-06-16 572.1 MB d0ee780d2e7541e0c11a84ec9f29cbb2 
macOs [64-bit] 3.5 在 download 2017-06-16 464.0 MB d8c15b4763d8c55202c5dba9dd7f3157 
Windows [64-bit] ER 十 download 2017-06-16 513.8 MB 3821c0a63abfe8d13d464ecda58d627c 
Windows [32-bit] 2.7 起 download 2017-06-16 420.9 MB 895bff89399d5f4b59ef101dcb33edfd 
Windows [64-bit] 3.5 起 download 2017-06-16 431.3 MB 82c62c8549a9b02a4fe751484e13bb48 
Windows [32-bit] - 二 download 2017-06-16 350.2 MB f378349261eeb9d8bc614321d12d0264 
































(4) 这 一 步 可 以 不 填写 任何 个 人 信息 。 这 是 一 个 标准 的 Windows 安装 程序 ， 开 始 下 载 吧 。 


Thanks for downloading Canopy! 


While the download is in progress, please provide us your contact info to get updates 


about the latest Canopy features, useful Python tips & tricks, special discounts, and more. 


Are you a student or staff member at an academic institution? Yes No 


(If yes, you may register for a free Canopy Academic license for additional benefits) 


No thanks! 





(5) 下 载 完成 之 后 ， 找 到 rp a 并 启动 ， 开始 安装 。 在 同意 许可 条 款 之 前 ,你 或 许 
想 仔 细 地 读 一 下 ， 这 由 你 自己 决定 ， 然 后 只 需 静 待 安 半 完 成 即 可 。 


(6) 安装 过 程 结束 后 ， 点 击 Finish 按钮 ， 自动 启动 Canopy。 然 后 你 会 看 到 Canopy 可 以 
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自己 搭建 Python 环境 ， 这 个 功能 非常 好 ， 不 过 要 持续 1~2 分 钟 。 





(7) 安装 程序 搭建 好 Python 环境 之 后 ， 你 会 看 到 类 似 下 图 的 屏幕 显示 。 这 是 一 个 Canopy 欢 
迎 页 面 ， 含 有 一 些 用 户 友好 的 大 按钮 。 





| 
国 Welcome to Canopy El x 
File Edit Tooks Window Help 
EnrHOUGHT Hi, welcome to Canopy! 
CANOPY Log in to your Enthought account or create one. 








加 加 
Editor Package Manager Doc Browser 
SS 
WA 

Training on Demand Data Import Tool 

Recent files 

No recent files. Restore previous session CG 


Open an existing file 高 


Version: 2.1.3.3542 

















(8) 最 棒 的 是 ， 本 书 所 需 的 几乎 所 有 软件 包 都 和 Enthought Canopy 一 起 预先 安装 好 了 ， 这 就 
是 我 推荐 Enthought Canopy 的 原因 。 








(9) 我 们 的 准备 工作 还 有 最 后 一 项 。 点击 Canopy 欢迎 页 面 的 Editor 按钮 , 你 会 看 到 跳出 一 个 
编辑 器 界面 ， 点 击 编辑 器 界面 下 方 的 窗口 ， 输 入 以 下 代码 。 


!Pip install pydotplus 








(10) 下 图 是 在 Canopy 编辑 器 窗口 中 输入 上 面 代码 的 屏幕 显示 。 别 忘 了 按 回 车 键 。 








i - TIC VIT ory Vv ry. TT Tn 
|%quickref -> Quick reference. 

ihelp -> Python's own help system. 

lobject? -> Details about 'object’', use 'objec 








IIn [1]: !pip instalI pydotplus| 
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(11) 按 下 回 车 键 后 ， 就 会 开始 安装 一 个 附加 模块 ， 在 本 书后 面 讲 到 决策 树 和 生成 决策 树 时 ， 
会 用 到 这 个 模块 。 


(12) pydotplus 安装 完成 后 ,程序 会 通知 你 。 巷 喜 , 你 已 经 完成 了 所 有 的 准备 工作 ! 程序 安装 
完成 之 后 ， 让 我 们 再 通过 才 个 步骤 确认 程序 可 以 顺畅 地 运行 。 


程序 运行 测试 

(1) 对 安装 好 的 程序 进行 一 下 测试 。 首 先 ， 将 Canopy 窗口 全 部 关 掉 ! 这 是 因为 我 们 实际 上 
不 会 使 用 Canopy 编辑 器 来 编写 代码 ， 相 反 ， 我 们 要 使 用 的 是 Python Notebook ， 现 在 它 又 称 为 
Jupyter Notebook。 


(2) 让 我 来 告诉 你 该 怎么 做 。 如 果 你 在 操作 系统 中 打开 了 一 个 窗口 ， 来 查看 本 书 附带 的 文件 
(文件 的 下 载 方法 见 前 言 )， 那 么 就 应 该 看 到 下 图 这 个 样子 ， 窗 口中 有 一 组 本 书 将 要 用 到 的 .ipynb 
代码 文件 。 

































Organize 了 国 open 下 Share with Y New folder 有 > 团 8@| 



































ee Name Date modified Type Size 可 
一 回 ltemBasedCF 7/11/2017535PM 。 IJpython Notebook 52 KB 
esktol 
KFoldCrossValidation 7/11/2017535PM IPython Notebook 6 KB 
ownloads 
< ee 加 KMeans 7/11/2017535PM IPython Notebook 28 KB 
遍 eCeni laces 
ee 国 KNN 7/11/2017535PM IPython Notebook 15 KB 
neDrve 
| LinearRegression 7/11/20175:35PM IPython Notebook 38 KB 一 章 
< 号 MatplotLib 7/11/2017535PM 。 Jpython Notebook 315 KB 
a Libraries 一 和 
De MeanMedianExercise 7/11/2017535PM IPython Notebook 10 KB 
Dh Mus MeanMedianMode 7/11/2017535PM IPython Notebook 15 KB 
UsIC 
Pic 国 Moments 7/11/2017535PM IPython Notebook 11KB 
Is) Pictures 
恬 via 加 | MultivariateRegression 7/11/2017535PM IPython Notebook 14 KB 
ideos 
国 NaiveBayes 7/11/2017535PM IPython Notebook 8 KB 所 
ol | @] Outliers 7/11/2017535PM Ipython Notebook 19KB| 
上 章 Computer E 11172 3 如 
名 Local Disk ta Nal] PastHired Type Ipython Notebook p111/2017 535 PM 。 Microsoft Excel C... 1KB 
Es 国 PCA |Size:18.5 KB /1l/2017 535 PM Ipython Notebook 27 KB 
‘Ocal Usi 人 ee 3 
> 国 Percentille ee ee eR/1/2017 535pPM Ipython Notebook 10KB 
&a Local Disk (E:) 
国 PolynomialRegression 7/11/2017 535 PM 。 JpPython Notebook 37 KB 
@ Network 国 python101 7/11/2017535PM IPython Notebook 13KB 
Dr 
目 regression 7/11/2017535PM Tex Document 12KB 
国 SimilarMovies 7/11/2017535PM IPython Notebook 45 KB 
加 SparkDecisionTree 7/11/2017535PM Python File 3KB 
图 SparkKMeans 7/11/2017535PM Python File 2KB 
SparkLinearRegression 7/11/2017 5:35 PM Python File 3KB - 
NOutliers Date modified: 7/11/2017 5:35 PM Date created: 1/26/2016 11:20 AM 
面 Jpython Notebook Size: 18.5 KB 























现在 在 列表 中 找到 Outliers 文件 ， 也 就 是 Outliers.ipynb 文 件 。 双 击 这 个 文件 ,将 先 启 动 Canopy， 
然后 会 启动 你 的 Web 浏览 器 。 这 是 因 为 Notebook ee Web 浏览 器 中 运行 
的 。 开 始 时 ,会 有 一 点 小 小 的 停顿 ,这 在 第 一 次 使 用 时 可 能 会 有 点 困惑 ， 但 你 很 快 就 会 习惯 这 种 
方式 。 
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你 很 快 就 能 看 到 ，Canopy 和 默认 Web 浏览 器 (我 的 是 Chrome ) 相继 启动 。 因 为 双击 了 
Outliers.ipynb 文件 ， 所 以 会 看 到 以 下 Jupyter Notebook 页 面 。 





> JU pyter outliers Last Checkpoint: 12 minutes ago (autosaved) 
File Edit View Insert Cell Kemel Help 


十 35 由 可 个 v HI 国 C Markdown Y | 国 || CellToolbar 


Dealing with Outliers 


Sometimes outliers can mess up an analysis; YOU usually don't want a handful of data points 
data, with Bill Gates thrown in: 


In [2]: %matplotlib inline 
import numpy as np 


incomes = np.random.normal(27888, 15888,，18888) 
incomes = np.append(incomes，[1666966666]) 


import matplotlib.pyplot as plt 
plt.hist(incomes, 58) 
plt.show() 











如 果 你 看 到 了 这 个 页 面 ， 就 说 明 安 装 过 程 一 切 正常 ， 你 已 经 做 好 准备 ,可 以 开始 学 习 本 书后 
续 的 内 容 了 ! 
如 果 在 打开 IPYNB 文件 时 出 现 问 题 
我 发 现在 双击 .ipynb 文件 时 偶尔 会 出 现 一 点 小 问题 。 别 紧张 ! Canopy 只 是 偶尔 会 有 一 点 古 
有 时 会 要 求 你 输入 密码 或 令 牌 ， 有 时 会 显示 无 法 连接 。 
当 出 现 以 上 任意 一 种 情况 时 ,不 要 紧张 ,这 只 是 偶然 现象 。 有 时 候 , 仅仅 是 因为 电脑 上 的 基 
些 程序 没有 按照 正确 顺序 启动 ， 或 者 没有 及 时 启动 ， 这 都 是 很 正常 的 。 

你 能 做 的 就 是 再 次 打开 文件 ， 有 了 时候 需 要 试 两 次 或 三 次 才能 正确 加 载 它 。 你 只 要 多 试 几 次 ， 
Jupyter Notebook 页 面 总 归 会 出 现 的 ， 就 像 前 面 的 Dealing with Outliers 页 面 一 样 。 








训 














1.2 ”使 用 并 理解 IPython/Jupyter Notebook 


恭喜 你 安装 完成 ! 下 面 就 开始 使 用 Jupyter Notebook， 也 就 是 IPython Notebook。 眼 下 ， 时 洲 
的 名 称 是 Jupyter Noterbook， 但 很 多 人 还 是 称 其 为 Python Notebook， 其 实 很 多 开发 者 是 交替 使 
用 这 两 个 名 称 的 。IPython Notebook 可 以 帮助 我 记 住 notebook 文件 的 后 级 .ipynb， 本 书 中 会 频繁 
使 用 这 种 文件 。 


下 面 开 始 学 习 如 何 使 用 IPython/Jupyter Notebook。 找 到 本 书 下 载 资料 中 的 DataScience 文件 
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夹 , 我 的 文件 夹 是 E:DataScience。 如 果 你 在 前 面 安 装 部 分 没有 打开 任何 文件 , 那么 现在 请 双击 打 
开 Outliers.ipynb 文件 。 


双击 文件 后 ， 先 启动 Canopy， 然 
的 样子 。 








然后 启动 Web 浏览 絮 。 下 面 是 Outliers 文件 在 我 的 浏览 圳 中 


File Edit View Insert Cell Kemel Help 


Python 2 O 


+ 山本 个 yhH 国 | CMarkdown v | 加 | CellToolbar 


Dealing with Outliers 


Sometimes outliers can mess up an analysis; you usually don't want a handful of data points to skew the overall results. Let's revisit our example of income 
data, with Bill Gates thrown in 


In [2]: %matplotlib inline 
import numpy as np 


incomes = np.random.normal(27666，15666，16666) 
incomes = np.append(incomes, [18898888898]) 
import matplotlib.pyplot as plt 
plt.hist(incomes, 58) 

plt.show() 
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That's not very helpful to look at One billionaire ended up squeezing everybody else into a single line in my histogram. Plus it skewed my mean income 
significantly 


In [3]: incomes.mean() 


Out[3]: 127148.58796177129 





如 你 所 见 ，notebook 文件 可 以 将 文本 、 注 释 和 代码 组 织 在 一 起 ， 而 且 你 还 可 以 在 Web 浏览 


ee 


中 运行 代码 。 所 以 , 这 是 一 种 非常 方便 的 文件 格式 , 你 不 仅 可 以 将 这 种 文件 作为 日 后 工作 的 参 
> 帮助 自己 回忆 起 算法 是 如 何 运行 的 ， 还 可 以 使 用 这 种 文件 来 做 实验 。 





IPython/Jupyter Notebook 文件 实际 上 是 在 浏览 器 中 运行 的 ,就 像 网 页 一 样 ,但 后 


台 需 要 Python 
引擎 的 支持 。 所 以 ， 你 会 看 到 和 前 一 个 截图 相似 的 页 面 。 


当 你 在 浏览 器 中 向 下 深 动 notebook 时 ,会 看 到 一 个 代码 段 。 因 为 它 里 面包 含 着 实际 的 代码 ， 
所 以 很 容易 看 见 。 请 在 Outliers notebook 中 找到 以 下 代码 ， 就 在 上 方 附近 : 


smatplotlib inline 
import numpy as np 
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incomes = np.random.normal (27000, 15000, 10000) 
incomes = np.append(incomes, [1000000000]) 


import matplotlib.pyplot as plt 
plt.hist(incomes, 50) 
plt.show!() 


快速 地 看 一 下 这 段 代码 。 这 段 代 码 首 先 建立 了 一 个 简单 的 正 态 分 布 , 用 来 模拟 某 个 人 群 的 收 
入 分 布 。 然 后 模拟 了 将 高 收入 者 ( 比如 比尔 : 盖 蒋 ) 加 入 这 个 人 群 之 后 ， 对 收入 分 布 的 均值 所 造 
成 的 破坏 ， 以 此 来 说 明 离 群 点 对 分 布 的 影响 。 

可 以 通过 点 击 鼠 标 在 notebook 中 选择 任意 代码 段 。 如 果 你 点 击 了 以 上 代码 段 ， 再 点 击 上 方 
的 运行 按钮 ， 就 可 以 运行 这 段 代码 了 。 下 图 就 是 页 面 上 部 的 区 域 ， 你 可 以 在 这 里 找到 运行 按钮 。 






































-Wh JUPyter outliers (autosaved) 


File Edit View Insert Cell Kemel Help 








+ | 235 由 名 | 个 小 HH 国 CC Markdown vr 四 | CellToolbar 





选择 代码 段 并 点 击 运行 按钮 后 ， 会 生成 以 下 图 形 。 
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同样 ， 可 以 点 击 下 一 个 代码 段 ， 这 个 代码 段 只 有 一 行 代码 : 

incomes .mean () 

如 果 你 选择 了 这 个 代码 段 , 并 点 击 运 行 按 钮 , 就 会 看 到 下 面 的 输出 结果 。 因为 离 群 点 的 影响 ， 
这 是 一 个 非常 大 的 值 ， 如 下 所 示 : 

127148.50796177129 

下 面 来 点 有 意思 的 。 在 后 面 的 代码 段 中 ， 你 将 看 到 以 下 代码 ， 它 找 出 离 群 点 ， 并 将 其 从 数据 
集中 移 除 : 
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def reject_outliers (data): 
u = np.median (data) 
Bs a np. Sbatdatay 
filtered = [eé.for €-in data ‘if (UU 2 ex<U+1+ 2 BB) 
return filtered 


filtered = reject_outliers (incomes) 


plt.hist(filtered, 50) 
plt.show!() 


在 notebook 中 选择 相应 的 代码 段 ， 青 次 点 击 运行 按钮 ， 你 会 看 到 以 下 图 形 。 

















-20000 0 20000 40000 60000 80000 











这 是 一 幅 更 加 美观 的 直方 图 , 代表 了 更 加 典型 的 美国 人 一 一 已 经 将 那些 起 破坏 作用 的 离 群 点 
剔除 了 。 


现在 ， 你 已 经 做 好 了 学 习 本 书 的 一 切 准 备 ， 包 括 所 需 的 全 部 数据 、 脚 本 、Python 开发 环境 
和 Python notebook。 行动 起 来 吧 ! 下 面 我 们 将 学 习 一 堂 关 于 Python 语言 本 身 的 速成 课 ， 即 使 你 
对 Python 已 经 很 熟悉 了 ， 也 可 以 通过 这 门 课程 复习 一 下 。 所 以 ， 无 论 如 何 你 都 要 学 习 一 下 ， 马 
上 开始 。 


























1.3 Python 基础 一 一 第 一 部 分 


如 果 你 使 用 过 Python, 那么 可 以 跳 过 接 下 来 这 两 节 。 但 是 , 如 果 你 需要 复习 , 或 者 以 前 根本 
没有 用 过 Python, 那 么 就 需要 好 好 学 习 一 下 了 。Python 这 门 脚本 语言 有 一 些 独 特 之 处 需要 你 了 解 ， 
下 面 我 们 就 通过 编写 一 些 实际 的 代码 来 学 习 Python。 


我 之 前 说 过 , 学 习 本 书 需要 一 些 编程 经 验 。 你 应 该 使 用 某 种 语言 编写 过 代码 ， 即 使 是 脚本 语 
言 也 没 问 题 ， 不 管 是 JavaScript、C++、Java 还 是 其 他 语言 均 可 。 如 果 你 是 个 Python 新 手 ， 那 么 
我 会 提供 一 个 快速 教程 。 本 节 只 是 给 出 了 几 个 例子 。 


与 其 他 语言 相 比 ，Python 有 一 些 独特 之 处 ， 这 是 你 应 该 了 解 的 。 所 以 ,我 只 会 指出 Python 
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与 你 用 过 的 其 他 脚本 语言 的 区 别 ， 而 通过 实际 例子 展示 是 最 佳 方式 。 下 面 来 看 一 些 Python 代码 。 














































































OO BD ， DataScience » | 好 Search DataScience 
一 一 一 和 一 一 一 一 一 一 一 一 一 一 OG 一 一 二 一 一 一 一 一 一 
Organize v 一] Open Share with New folder ”= @ 
Es Name Date modified Type Size ~^ 
转 Desktop 加 | KMeans 7/11/20175:35PM IPython Notebook 28 KB 
Downionds 加 KNN 7/11/20175:35PM IPython Notebook 15 KB 
G Recent Places 加 LinearRegression 7/11/20175:35PM 。 JPython Notebook 38 KB 
re 加 MatPlotLib 7/11/20175:35PM IPython Notebook 315 KB 
| MeanMedianExercise 7/11/20175:35PM IPython Notebook 10KB 
两 加 MeanMedianMode 7/11/20175:35PM IPython Notebook 15 KB 局 
国 De Moments 7/11/20175:35PM IPython Notebook 11 KB 
b eh Music 回 MultivariateRegression 7/11/20175:35PM 。 JPython Notebook 14 KB 
加 Pictures 回 NaiveBayes 7/11/20175:35PM IPython Notebook 8KB 
图 Videos Outliers 7/13/20171:25PM IPython Notebook 18 KB 
[| PastHires 7/11/2017 5:35 PM Microsoft Excel C... 1KB 
4 Computer PCA 7/11/20175:35PM IPython Notebook 27 KB = 
上 色 Local pisk(c 回 Percentiles 7/11/20175:35PM IPython Notebook 10 KB 
b Ea Local Disk Dj 国 PolynomialRegression 7/11/20175:35PM IPython Notebook 37 KB 
ee | 回 Python101 7/12/20172:36PM Ipython Notebook 15 KB 
目 regression 7/11/20175:35PM Ted Document 12 KB 
2 mn ee 加 SimilarMovies 7/11/20175:35PM 。 JPython Notebook 45 KB 
加 SparkDecisionTree 7/11/20175:35PM 。 python File 3KB 
图 sparkKMeans 7/11/2017535PM 。 python File 2KB 
图 SparkLinearRegression 7/11/20175:35PM Python File 3KB 
图 SparkPCA 7/11/2017 5:35 PM Python File 2KB 
[| StdDevVariance 7/11/20175:35PM IPython Notebook 10 KB - 
Python101 Date modified: 7/12/2017 2:36 PM Date created: 1/26/2016 11:23 AM 
Jpython Notebook Size: 14.4 KB 
可 














如 果 你 打开 前 面 下 载 过 的 DataScience 文件 夹 , 就 会 看 到 Python101.ipynb 文件 , 双击 打开 它 
如 果 所 有 程序 都 安装 正确 ,那么 这 个 文件 会 在 Canopy 中 打开 ， 如 下 所 示 。 





Python Basics 


Whitespace Is Important 


In [1]: | listOfNumbers = [1, 2, 3, 4, 5, 6€] 


for number in listOfNumbers: 
Print {number), 
if (number $ 2 一 0): 
Print ("is even") 
else: 
print ("is odd") 


Print ("All done.") 
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没关系 的 ! 


Python 的 一 大 优点 就 是 可 以 用 多 种 方式 运行 代码 。 你 可 以 将 代码 作为 脚本 运行 , 就 像 普通 编 
程 语 言 一 样 。 你 还 可 以 将 代码 写 在 Python Notebook 里 ， 本 书 就 是 这 样 做 的 。 通 过 这 种 方式 ， 你 
可 以 使 用 Web 浏览 器 查看 文件 ， 在 文件 中 使 用 HTML 标记 加 入 一 些 文本 和 注释 ， 并 舰 入 可 以 使 
用 了 Python 解释 器 运行 的 实际 代码 。 


0 新 版 本 的 Canopy 会 在 Web 浏 览 器 中 打开 这 个 文件 ， 而 不 是 在 Canopy 编辑 器 中 打开 。 
































1.4 理解 Python 代码 


下 面 就 是 Python 代码 的 一 个 例子 。 这 个 代码 段 可 以 在 notebook 页 面 中 运行 ， 我们 将 其 放大 
一 下 ， 看 看 其 中 的 代码 。 





Python Basics 


Whitespace Is Important 


In [1]: | ListOFNumbezrs = [1, 2, 3, 4, 5, €] 


for number in listOfNumbers: 











代码 中 有 一 个 数值 列表 。Python 中 的 列表 与 其 他 语言 中 的 数组 很 相似 ， 用 中 括号 表示 。 





Whitespace ls Important 








In [4]: |listofNumbers = [1, 2, 3, 4, 5, 6] 








这 个 列表 中 包含 从 1 到 6 的 数值 ， 如 果 要 迭代 其 中 的 每 个 数值 ， 可 以 使 用 for number in 
listofNumbers:， 这 就 是 在 列表 中 进行 迭代 的 Python 语法 ， 后 面 要 加 上 一 个 冒号 。 


i, 制 表 符 与 空白 在 Python 中 有 实际 意义 ， 所 以 你 不 能 使 用 它们 来 随意 地 格式 化 代码 ， 


这 一 点 需要 注意 。 
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我 要 强调 的 是 ， 在 其 他 语言 中 ， 经 常 使 用 小 括号 或 大 括号 来 表示 for 循环 、if 代码 块 或 其 
他 代码 块 中 的 内 容 ， 但 在 Python 中 ， 这 是 使 用 空白 来 实现 的 。 制 表 符 确实 非常 重要 ， 它 可 以 使 
Python 识别 出 每 个 代码 块 中 的 内 容 : 
for number in listOfNumbers: 
print number, 
if (number %$ 2 == 0): 
print ("is even") 
else: 
print ("is odd") 
print ("All done.") 
在 这 个 for 代码 块 中 , 所 有 代码 行 的 前 面 都 有 一 个 制 表 符 , 对 于 每 个 number in ListofNumbers， 
都 会 执行 这 些 由 一 个 制 表 符 缩 进 的 代码 。 先 打印 出 这 个 数值 ,逗号 表示 随后 的 内 容 不 会 另 起 一 行 。 
在 数值 后 面 还 要 打印 出 一 些 东西 。 如 果 (number s 2 = 0) ,就 打印 出 even,， 否则 就 打印 出 odqa。 
所 有 数值 都 打印 完成 后 ， 打 印 出 All done。 




















1 is odd 
2 is even 
3 is odd 
4 is even 
5 is odd 
6 is even 
All done . 














在 代码 后 面 ， 你 可 以 看 到 输出 结果 。 在 将 这 段 代码 放 到 notebook 文件 中 之 前 ， 我 已 经 实测 
过 了 ， 如 果 你 想 亲 自 试 一 下 ， 只 需 点 击 选中 这 段 代码 ， 然 后 按 运行 按钮 ， 就 可 以 将 这 段 代 码 重 新 
运行 一 遍 。 为 了 确认 这 段 代 码 确实 有 效 , 把 print 语句 修改 一 下 , 改 为 输出 Hooray! we're all 
done. Let's party!。 再 运行 一 次 ， 你 可 以 看 到 输出 的 信息 已 经 改变 了 。 
































Python Basics 


Whitespace ls Important 


In [9]: | listOfNumnbers = [1，2，3，4，5，6] 


for number in listOfNumbers: 


even 
Hooray! We're all done- Let's party! 
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再 强调 一 下 ， 空 白 是 非常 重要 的 。 使 用 缩 进 或 制 表 符 产生 的 空白 可 以 表示 出 代码 块 ， 比 如 | 
for 循环 或 1f then 语句 ， 这 一 点 请 一 定 注意 。 还 要 注意 一 下 ， 很 多 子 句 都 是 由 冒号 引导 的 。 

















1.5 ”导入 模块 


和 所 有 语言 一 样 , Python 本 身 的 功能 是 相当 有 限 的 。Python 在 机 带 学 习 、 数 据 挖掘 和 数据 科 
学 领域 的 真正 威力 在 于 ， 它 具有 可 以 完成 这 些 工作 的 大 量 外 部 程序 库 。 例 如 ，NumpPy 就 是 这 样 
的 程序 库 之 一 。 这 个 程序 库 包 括 在 Canopy 中 ， 这 里 可 以 将 NumPy 包 导 和 为 np。 


这 意味 着 可 以 使 用 np 来 引用 NumPy 包 。 实 际 上 可 以 使 用 任何 名 称 来 引用 这 个 包 , 比如 Fred 
或 Tim, 但 最 好 使 用 一 个 有 实际 意义 的 名 称 。 既 然 已 经 将 NumPy 包 导 入 为 np， 就 可 以 使 用 np 
来 引用 它 : 

import numpy as np 


这 个 例子 将 使 用 NumPy 包 中 的 random 功能 ， 调 用 其 中 的 正 态 分 布 函数 ， 使 用 所 给 参数 生 
成 一 组 符合 正 态 分 布 的 随机 数值 ， 并 将 这 些 数值 打印 出 来 。 因 为 这 些 数值 是 随机 的 ,所 以 每 次 生 
成 的 结果 都 不 一 样 : 


import numpy as np 
A = np.random.normal (25.0, 5.0, 10) 
print (A) 


上 述 代码 的 输出 如 下 。 























[ 23.58119237 28.3478395 27.68512972 27.43957344 22.66626262 





25.98855199 27.87395644 25.99525487 28.36318486 22.77226693] 


我 的 结果 肯定 与 你 的 不 一 样 ， 这 很 正常 。 


1.5.1 数据 结构 

下 面 学 习 数据 结构 。 对 于 这 部 分 内 容 ， 如 果 你 想 多 花 一 些 时 间 仔细 研究 的 话 ， 完 全 没 问题 。 
学 习 数 据 结构 的 最 佳 方法 就 是 马上 开始 并 多 做 实际 练习 。 我 之 所 以 提供 了 实用 的 卫 ython/Jupyter 
Notebook， 就 是 想 让 你 马上 开始 ， 随 意 地 进行 修改 ， 进 行 各 种 各 样 的 练习 。 


例如 ， 我 们 已 经 有 了 一 个 25.0 附近 的 分 布 ， 那 么 可 以 将 其 修改 为 55.0 附近 的 分 布 : 


import numpy as np 
A = np.random.normal (55.0, 5.0, 10) 
print (A) 


所 有 的 数值 都 改变 了 ， 它 们 都 在 55 附近 ， 不 错 吧 ? 
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[ 48.79441876 63.77818473 61.24157856 47.38182128 52.5623337 
55.88574543 55.16594437 53.59688642 58.57639589 68.44858383] 











对 于 数据 结构 ， 这 里 会 多 介绍 一 些 。 在 第 一 个 例子 中 , 我们 使 用 了 一 个 列表 ,下 面 就 介绍 列 
表 的 用 法 。 





1.5.2 ”使 用 列表 


6 
print (len (x)) 


这 个 例子 中 创建 了 一 个 列表 x， 并 为 其 赋予 了 从 1 到 6 的 数值 。 中 括号 表示 这 里 使 用 的 是 
Python 列表 。 列表 是 可 变 对 象 , 我 们 可 以 向 里 面 随意 地 添加 元 素 或 重新 排列 元 素 。Python 中 有 一 
个 可 以 确定 列表 长 度 的 内 置 函 数 1en。 如 果 输 入 len (x) ， 就 会 返回 数值 6， 因 为 这 个 列表 中 有 
6 个 数值 。 

同样 ， 为 了 确定 这 些 代码 确实 可 以 运行 ， 我们 向 列表 中 添加 一 个 新 的 数值 ， 比 如 4545。 如 
果 重 新 运行 这 段 代码 ， 那 么 结果 就 是 7， 因 为 现在 列表 中 有 7 个 数值 : 


RE Dn 0 i 7 Gi FS4S 
print (len (x)) 


上 述 代 码 的 输出 如 下 : 

7 

回 到 最 初 的 例子 , 你 还 可 以 对 列表 进行 切片 操作 。 如 果 想 对 列表 取 子 集 , 那么 语法 非常 简单 ， 
如 下 所 示 : 

党 雍 六 ;3 

上 述 代 码 的 输出 如 下 : 


[1, 2, 3] 


















































且 冒 号 
如 果 你 想 取 出 列表 的 前 3 个 元 素 ， 即 元 素 3 前 面 的 所 有 元 素 ， 可 以 使 用 :3 ， 即 取出 1、2 和 
3。 为 什么 会 这 样 呢 ? 因为 和 大 多 数 语言 一 样 ，Python 中 的 索引 是 从 0 开始 的 ， 所 以 元 素 0 是 1， 
元 素 1 是 2， 元素 2 是 3。 因 为 我 们 需要 的 是 元 素 3 前 面 的 所 有 元 素 ， 所 以 结果 是 这 样 的 。 





1. 前 冒 
Vy 

















人 注意 ， 在 大 多 数 语言 中 ， 计 数 是 从 0 开始 的 ， 不 是 1。 






































这 有 点 令 人 迷惑 , 但 在 这 个 例子 中 , 它 的 意义 还 是 很 直观 的 。 你 可 以 认为 冒号 的 意义 是 所 有 元 
素 ， 比 如 前 3 个 元 素 。 还 可 以 将 这 个 例子 修改 为 取出 前 4 个 元 素 ， 以 证 明 这 段 代 码 确实 可 以 运行 : 
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x[:4] 


上 述 代 码 的 输出 如 下 : 





如 果 将 冒号 放 在 3 的 后 面 ， 就 能 取出 3 后 面 的 所 有 元 素 ， 即 x[3:] 可 以 返回 4、5 和 6。 

x[3:] 

上 述 代 码 的 输出 如 下 : 

[4; 5, 6€] 

你 可 以 保留 这 个 IPython/Jupyter Notebook 文件 。 这 是 个 很 好 的 参考 ,因为 有 时 候 会 搞 不 清 分 
片 操作 符 是 否 包括 某 个 元 素 。 这 时 最 好 的 方法 就 是 做 一 些 实际 的 测试 。 

3. 反 向 语法 

你 还 可 以 使 用 反 向 语法 : 

| 

输出 如 下 : 


[5, 6] 


x[-2:] 表 示 取 出 列表 中 的 后 两 个 元 素 ， 这 意味 着 从 列表 最 后 向 前 数 两 个 元 素 , 即 5 和 6， 
因为 它们 就 是 列表 中 的 最 后 两 个 元 素 。 


4. 向 列表 中 加 入 列表 


你 还 可 以 修改 列表 。 假 设 我 们 想 向 列表 中 加 入 另 一 个 列表 。 可 以 使 用 extena 函数 来 完成 这 
个 操作 ， 如 下 所 示 : 


x.extend([7,8]) 
x 


上 述 代 码 的 输出 如 下 : 
































原 列表 中 的 元 素 是 1，2，3，4，5，6。 假设 我 们 用 新 列表 [7，8] 来 扩展 这 个 列表 ， 其 中 
方 括号 表示 这 是 一 个 新 的 列表 。 这 里 直接 写 出 了 列表 , 其 实 也 可 以 隐 式 地 使 用 一 个 变量 来 引用 一 
个 列表 。 你 可 以 看 到 ， 一旦 扩展 完成 ,列表 [7，8] 就 被 追加 到 原 列表 的 最 后 。 使 用 列表 来 扩展 
列表 会 得 到 一 个 新 列表 。 
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5. append 国 数 
如 果 你 只 想 向 列表 中 加 入 一 个 元 素 ， 可 以 使 用 appeng 函数 。 如 果 想 向 列表 中 加 入 数值 9， 
可 以 这 样 做 : 


x.append (9) 
Xx 


上 述 代码 的 输出 如 下 : 





6. 复杂 的 数据 结构 

使 用 列表 还 可 以 实现 比较 复杂 的 数据 结构 。 你 不 但 可 以 在 列表 中 包括 数值 , 还 可 以 在 列表 中 
包括 字符 串 ， 甚 至 包括 其 他 列表 ， 都 是 没 问 题 的 。Python 是 一 种 弱 类 型 语言 ， 只 要 你 愿意 ， 可 以 
在 列表 中 包括 任意 类 型 的 数据 。 以 下 代码 完全 没有 问题 : 

YS EEO TE, (day 


1istofLists = [x, y] 
TyStOfFLLStS 


上 面 例子 创建 了 另 一 个 列表 y， 其 中 包含 10，11，12。 我 们 又 创建 了 一 个 包含 两 个 列表 的 
列表 ， 惊 不 惊喜 ?7 意 不 意外 ?列表 1istofLists 中 包含 列表 x 和 列表 y， 这 是 完全 可 以 的 。 你 
可 以 看 到 ， 一 个 中 括号 用 来 表示 列表 1istofLists， 其 中 还 有 男 外 两 个 中 括号 ， 表 示 作 为 列表 
元 素 的 列表 : 





























上 

有 时 候 这 种 数据 结构 是 非常 方便 的 。 

7. 引用 单个 元 素 

如 果 你 想 引 用 列表 中 的 单个 元 素 ， 可 以 这 样 使 用 中 括号 : 
y[1] 

上 述 代码 的 输出 如 下 : 

J 


y [1] 会 返回 元 素 1。 请 注意 y 中 包含 10，11，12。 从 上 个 例子 可 知 ， 索 引 是 从 0 开始 的 ， 
所 以 元 素 1 实际 上 是 列表 的 第 二 个 元 素 ， 即 数值 11， 明 白 了 吗 ? 


8. 排序 函数 
最 后 来 看 一 下 内 置 的 排序 函数 : 
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如 果 使 用 列表 元 素 是 3，2，1 的 列表 z， 那 么 对 这 个 列表 进行 排序 后 ， 结 果 如 下 : 


[1, 2, 3] 


9. 反 向 排序 


Zz.sort (reverse=True) 
Zz 


上 述 代 码 的 输出 如 下 : 


[3, 2, 1] 


如 果 你 要 进行 反 向 排序 ， 可 以 在 sort 函数 中 设置 参数 reverse = True， 这样 就 可 以 对 
3，2，1 进行 反 向 排序 了 。 


如 果 你 想 把 这 部 分 内 容 好 好 消化 一 下 ， 可 以 花 点 时 间 进 行 复习 。 

















1.5.3 ”元 组 


元 组 与 列表 很 相似 , 但 它 是 不 可 变 的 ， 所 以 你 不 能 对 元 组 进行 扩展 、 追 加 和 排序 。 除 了 不 能 
修改 之 外 ， 元 组 和 列表 的 工作 方式 非常 相似 。 与 列表 的 另 一 个 不 同 是 ， 元 组 使 用 小 括号 来 表示 ， 
而 不 是 中 括号 。 除 了 以 上 两 点 ， 元 组 操作 基本 上 和 列表 一 样 : 

元 组 就 是 不 可 变 的 列表 ， 它 使 用 () 来 表示 ， 而 不 是 [] 


SLy 
len (x) 











上 述 代码 的 输出 如 下 : 

3 

如 果 x = (1，2，3)， 那 么 还 是 可 以 使 用 len 函数 来 说 明 这 个 元 组 中 有 3 个 元 素 。 如 果 你 
对 tuple (元 组 ) 这 个 单词 不 太 熟 悉 ， 那 么 只 要 知道 元 组 中 可 以 包含 任意 多 的 元 素 就 行 了 。 尽 管 
这 个 单词 的 发 音 与 拉丁 语 中 的 3 很 相似 ,但 并 不 是 说 其 中 只 有 3 个 元 素 。 通 常 ， 元 组 中 只 有 两 个 
元 素 ， 但 实际 上 ， 其 中 可 以 有 任意 多 的 元 素 。 

1. 引用 元 素 

同样 ， 我 们 可 以 引用 元 组 中 的 元 素 。 因 为 从 0 开始 计数 ， 所 以 元 素 2 还 是 第 三 个 元 素 。 以 下 
代码 会 返回 数值 6 


y = (4, 5, 6) 
yl[2] 
































18 第 1 章 入 门 





上 述 代码 的 输出 如 下 : 

6 

2. 元 组 列表 

和 列表 一 样 ， 元 组 也 可 以 作为 列表 的 元 素 。 
listOofTuples = [x, y] 

listofTuples 

上 述 代码 的 输出 如 下 : 


[(1, 2, 3), (4, 5, 6)] 


我 们 可 以 创建 一 个 包含 两 个 元 组 的 列表 。 前 面 的 示例 已 经 创建 了 值 为 (1，2，3) 的 元 组 x 
和 值 为 (4，5，6) 的 元 组 y。 接 下 来 可 以 使 用 这 两 个 元 组 创建 一 个 列表 , 并 看 一 下 这 个 列表 的 值 。 
可 以 看 到 ， 中 括号 表示 这 是 一 个 列表 ， 其 中 有 两 个 元 素 ， 分 别 是 由 小 括号 表示 的 元 组 。 当 进行 数 
据 科学 或 者 进行 某 种 数据 管理 或 数据 处 理 时 , 常常 使 用 元 组 来 将 输入 值 赋 给 变量 。 对 于 下 面 的 例 
子 ， 我 会 介绍 得 详细 一 些 : 

(age, income) = "32,120000".split(',') 


print (age) 
print (income) 


上 述 代码 的 输出 如 下 : 


32 
120000 
































假设 有 一 行 来 自 于 逗号 分 隔 值 文件 的 输入 数据 ， 其 中 包含 年 龄 ， 比 如 是 32， 以 及 由 逗号 分 
隔 开 的 对 应 年 龄 的 收入 ， 比 如 是 120000。 我 们 要 做 的 是 对 于 每 行 输入 都 调用 split 函数 , 将 其 
拆 分 为 由 逗号 分 隔 的 一 对 数值 ， 然 后 定义 一 个 由 年 龄 和 收入 组 成 的 元 组 ， 并 让 这 个 由 age 和 
income 组 成 的 元 组 等 于 拆 分 后 的 结果 元 组 ， 这 样 就 可 以 一 次 性 地 为 两 个 变量 赋值 了 。 









































当 需 要 将 多 个 域 一 次 性 地 赋 给 多 个 变量 时 , 这 是 一 种 非常 常见 的 快捷 操作 。 如 果 运 行 上 面 的 
代码 ， 就 会 看 到 由 于 这 个 小 技巧 ，age 变量 确实 被 赋 给 了 32， 而 income 变量 确实 被 赋 给 了 
120000。 在 进行 这 种 操作 时 ， 你 需要 非常 仔细 ， 因 为 如 果 没有 相应 数量 的 域 ， 或 者 结果 元 组 中 
没有 相应 数量 的 元 素 ， 代 码 就 会 引发 异常 。 











1.5.4 字典 




















最 后 一 种 在 Python 中 常用 的 数据 结构 是 字典 ， 你 可 以 将 字典 看 作 其 他 语言 中 的 映射 或 散 列 
表 。 字 典 是 Python 内 置 的 一 种 建立 微型 数据 库 或 某 种 键 / 值 对 数据 的 方法 。 例 如 ， 我 们 可 以 建立 
一 个 《星际 迷航 》 中 战舰 与 舰 长 的 小 型 字典 : 

















1.5 导入 模块 19 








In [8]: |# Like a map or hash table in other languages 
captains = {} 
captains["Enterprise"] = "Kirk" 
captains["Enterprise D"] = "Picard" 
captains["Deep Space Nine"] = "Sisko" 


captains["Voyager"] = "Janeway" 





Print {captains['Voyager']) 
Janeway 
In [9]: print {captains.get ("Enterprise")) 


Kirk 


In [10]: |print {captains.get{"NX 01")) 


None 





In [11]: |for ship in captains: 
print (ship + ":" + captains[ship]) 


Deep Space Nine:Sisko 
Enterprise:Kirk 
Voyager:Janeway 
Enterprise D:Picard 











首先 ， 使 用 大 括号 可 以 创建 一 个 空 字典 captains = { }。 然 后 ， 可 以 使 用 上 图 中 的 语法 
向 字典 中 添加 条 目 。 对 于 字典 captains，Enterprise 号 战舰 的 舰 长 是 Kirk，EnterpriseD 
号 战舰 的 舰 长 是 Picardg，Deep Space Nine 号 战舰 的 舰 长 是 Sisko，Voyager 号 战舰 的 舰 长 是 
Janewayo 这 样 就 建立 了 一 个 战舰 和 舰 长 的 对 应 表 , 如 果 使 用 代码 print captains["Voyager"]， 
就 可 以 得 到 Janewayo 


字典 就 是 建立 这 种 对 应 关系 的 一 种 非常 有 用 的 工具 。 如 果 在 数据 集中 有 某 种 标识 符 可 以 映射 
为 某 种 有 实际 意义 的 名 称 ， 你 就 可 以 使 用 字典 来 实现 这 种 映射 ， 并 输出 有 意义 的 名 称 。 


从 上 图 中 也 可 以 看 到 ， 如 果 想 访问 不 存在 的 字典 条 目 会 发 生 什么 情况 。 使 用 字典 的 get 方 
法 ， 可 以 安全 地 返回 一 个 条 目 。 在 我 们 的 字典 中 ， 确 实 存在 Enterprise 这 个 条 目 ， 所 以 代码 
返回 了 Kirk。 对 于 NX-01， 字 典 中 则 没有 这 个 条 目 ， 因 为 我 们 没有 定义 这 艘 战舰 的 舰 长 ， 所 以 
会 返回 None。 返 回 None 比 抛 出 一 个 异常 更 好 ， 但 是 你 确实 需要 意识 到 这 是 一 种 可 能 性 。 







































































print (captains.get ("NXxX-01")) 


上 述 代 码 的 输出 如 下 : 


None 


舰 长 是 Jonathan Archer， 但 你 知道 ， 我 现在 有 点 太古 怪 了 。 
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在 条 目 中 进 代 


for ship in captains: 
print (ship + ": " + captains[ship]) 


上 述 代码 的 输出 如 下 。 





Enterprise D: Picard 
Deep Space Nine: Sisko 
Enterprise: Kirk 








Voyager: Janeway 








下 面 来 看 一 个 在 字典 条 目 中 迭代 的 小 例子 。 如 果 想 在 字典 中 的 所 有 战舰 之 间 和 迭代, 并 输出 舰 


长 的 名 字 ， 那 么 可 以 使 
以 输出 与 每 个 键 对 应 的 




















用 for ship in captains， 它 可 以 在 字典 的 所 有 键 之 间 迭 代 。 然 后 可 
观 长 名 字 ， 这 就 是 上 面 的 输出 。 


好 了 ， 以 上 就 是 我 们 将 在 Python 中 见 到 的 基本 数据 结构 。 还 有 一 些 其 他 的 数据 结构 ， 比 如 
集合 , 但 本 书 中 不 会 使 用 。 所 以 , 这 些 就 足够 我 们 开始 学 习 了 。 本 书后 面 的 章节 中 将 会 介绍 Python 





语言 的 更 多 内 容 。 








1.6 Python 基础 一 一 第 二 部 分 
本 节 将 详细 介绍 更 多 的 Python 概念 。 


1.6.1 ”Python 中 的 函数 


下 面 介绍 Python 中 的 函数 。 和 其 他 语言 一 样 ， 你 可 以 使 用 带 有 不 同 参数 的 函数 来 多 次 重复 
一 组 操作 。 在 Python 中 ， 函 数 的 语法 如 下 : 


def SquarelIt (x): 
return x * x 





print (SquareIt (2)) 








上 述 代码 的 输出 如 下 : 
4 
你 可 以 使 用 关键 字 aef 来 声明 一 个 函数 ， 它 表示 一 个 函数 定义 ， 隐 数 的 名 称 是 SquareIt， 





























后 面 的 括号 中 是 参数 列表 , 这 个 函数 只 有 一 个 参数 x。 再 次 强调 , 在 Python 中 空白 是 非常 重要 的 。 





函数 体 不 是 用 大 括号 或 其 他 符号 括 起 来 的 , 而 是 通过 空白 来 表示 的 。 我们 使 用 冒号 表示 函数 声明 

行 结束 ， 一 个 或 多 个 制 表 符 的 缩 进 则 告诉 解释 器 ， 缩 进 的 代码 就 是 squareIt 函数 的 内 容 。 
所 以 , 这 个 函数 会 返回 x 的 平方 。 我 们 可 以 测试 一 下 。 我 们 称 这 个 郴 数 为 print SquareIt (2) 。 

和 其 他 语言 一 样 ,这 行 代码 会 返回 4。 运 行 这 行 代码 ,结果 也 确实 如 此 。 这 就 是 函数 , 非常 简单 。 
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显然 ， 如 果 我 们 愿意 ， 可 以 使 用 任意 多 的 参数 。 


下 面 来 使 用 Python 中 的 函数 做 一 些 很 酷 的 事情 。 你 可 以 将 函数 名 作为 参数 ， 如 下 所 示 : 
# 你 可 以 将 函数 作为 参数 传递 
def DoSomething(f, x): 


return f(x) 
print (DoSomething(SquareIt, 3)) 


上 述 代码 的 输出 如 下 : 

9 

函数 的 名 称 为 Dosoemething， 它 有 两 个 参数 ， 分 别 为 和 x。 可 以 将 函数 作为 其 中 一 个 参 
数 的 值 。 请 理智 地 看 看 这 个 例子 。DoSomething (E，x) 会 返回 E(x) ， 即 以 x 作为 参数 的 函数 f 
的 值 。 因 为 Python 中 没有 强 类 型 检查 ， 所 以 可 以 为 第 一 个 参数 传递 一 个 函数 名 称 。 

如 果 我 们 调用 Dosomething， 并 将 函数 名 squareIt 传递 给 第 一 个 参数 ,将 3 传递 给 第 二 
个 参数 ， 这 样 实际 上 就 是 使 用 参数 3 来 调用 函数 SquareIt， 即 SquareIt (3) ， 最 后 会 返回 9。 


把 函数 作为 参数 来 传递 对 你 来 说 可 能 是 一 个 新 概念 ， 有 些 难 以 理解 ， 所 以 好 好 思考 一 下 。 

1. lambda 函数 一 一 函数 式 编程 

相 比 于 其 他 语言 ，Python 中 特有 的 一 个 概念 是 lambda 函数 ， 这 是 一 种 函数 式 编程 。 你 可 以 
在 函数 中 再 包括 一 个 简单 的 函数 。 来 看 一 个 例子 : 

#1lambda 函数 可 以 让 你 直接 在 代码 中 定义 简单 的 函数 


print (DoSomething(lambda x: x * Xx*x X 3)) 


上 述 代 码 的 输出 如 下 : 


27 


下 面 再 次 调用 Dosomething 函数 ,， 它 的 第 一 个 参数 是 个 函数 ， 所 以 除了 传递 给 它 一 个 函数 
名 称 外 , 我 们 还 可 以 使 用 1ambda 关键 字 在 代码 行内 定义 这 个 函数 。lambda 的 含义 就 是 定义 一 个 
临时 的 未 命名 函数 ， 这 个 函数 有 一 个 参数 x。 这 里 的 语法 是 ，1ambda 定义 了 一 个 行内 函数 ， 后 
面 是 其 参数 列表 。 这 个 函数 有 一 个 参数 x， 冒 号 后 面 是 函数 的 具体 内 容 ， 它 将 参数 x 自身 相 乘 3 
次 ,返回 x 的 三 次 方 。 

在 这 个 例子 中 , Dosomething 将 lambda 函数 传递 给 第 一 个 参数 , 它 计算 x 的 三 次 方 , 并 将 
3 传递 给 第 二 个 参数 。 那 么 这 次 函数 调用 的 功能 是 什么 呢 ? lambda 函数 被 传递 给 Dosomething 
的 第 一 个 参数 E，3 被 传递 给 x, 所 以 会 返回 参数 为 3 的 lambda 函数 值 。lambda 函数 会 将 3 相 乘 
3 次 ,返回 27。 


当 开 始 使 用 MapReduce 或 Spark 时 ,要 经 常 进行 这 种 操作 。 所 以 如 果 我 们 以 后 要 使 用 Hadoop ， 
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就 要 搞 清 楚 这 个 重要 的 概念 。 我 再 次 建议 你 们 花 些 时 间 ， 深 刻 理解 这 种 操作 。 
2. 理解 布尔 表达 式 
布尔 表达 式 的 语法 有 点 奇怪 ， 至 少 在 Python 中 是 这 样 的 : 











Drint;. (lL, 3) 
上 述 代 码 的 输出 如 下 : 
False 


通常 ,我 们 使 用 两 个 等 号 来 测试 两 个 值 是 否 相 等 ,因为 1 不 等 于 3, 所 以 结果 为 False。False 

















表示 测试 结果 为 假 。 








请 记 住 ， 当 进行 布尔 测试 时 ，True 表示 结果 为 真 ，False 表示 结果 为 假 。 








这 和 我 们 使 用 过 的 其 他 语言 不 太一 样 ， 所 以 要 注意 一 下 。 


print (True or False) 


上 述 代码 的 输出 如 下 : 


True 


True or False 的 结果 是 True， 因 为 其 中 有 一 个 True。 你 可 以 运行 一 下 这 行 代 码 ， 结 映 


肯定 是 Trueo 
@ if 语句 
六 ES 3 


上 述 代码 的 输 


False 








‘i 








) 


出 如 下 : 





我 们 还 可 以 使 用 is， 它 和 等 号 的 作用 是 一 样 的 ， 却 是 一 种 更 加 Python 化 的 表示 。1 == 3 


和 1 is 3 是 等 价 的 ， 














只 是 后 者 更 具 Python 风格 。 因 为 1 不 等 于 3， 所 以 1is 3 的 值 是 False。 





e@ if-else 循环 


if. J 8. 3 


print "How did that happen?" 


全 二 本 下 “3 
BLNt ("YY 
else: 
print ("A 


上 述 代 码 的 输 


All is well WwW 





ikes") 
11 is well with the world") 


出 如 下 : 


ith the world 








上 面 例子 中 使 用 了 if-else 和 else-if 代码 块 ,这 样 可 以 使 程序 更 复杂 一 些 , 如 果 1 is 3， 
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就 打印 出 How diqd that happen?。 当 然 ，1 不 是 3， 所 以 我 们 将 进入 else-if 代码 块 ， 继 续 
测试 是 否 1 > 3。 同 样 ， 这 个 条 件 也 为 假 。 如 果 这 个 条 件 为 真 ， 就 打印 出 Yikes。 最 后 进入 else 
子 句 ， 打 印 出 All is well with the world。 











实际 上 ，1 不 是 3，1 也 不 大 于 3， 所 以 肯定 会 打印 出 All is well with the world。 
其 他 语言 也 有 类 似 的 语法 ,但 是 Python 中 的 语法 更 强大 。 请 保存 好 这 个 notebook， 它 以 后 会 是 
很 好 的 参考 。 


1.6.2 ”循环 


最 后 要 介绍 的 一 项 Python 基础 知识 是 循环 。 前 面 我 们 已 经 见 过 了 几 种 循环 ， 下 面 是 另 一 个 
例子 : 


for x in range(10): 
DLrit “(Sy 


上 述 代 码 的 输出 如 下 : 


及 二 :23 


例如 ， 可 以 使 用 range 操作 符 来 自动 定义 一 个 位 于 某 个 范围 之 内 的 数值 列表 ， 比 如 
range (10) 会 生成 一 个 从 0 到 9 的 列表 。 使 用 for x in range (10)， 可 以 在 这 个 列表 的 所 有 
元 素 之 间 迭 代 ， 并 打印 出 每 个 元 素 。 同样，print 语句 后 面 的 逗号 表示 不 用 男 起 一 行 ， 而 是 继续 
输出 。 所 以 ,列表 中 的 每 个 元 素 都 打印 在 了 一 行 上 。 


为 了 让 代码 更 复杂 一 些 ， 下 面 来 看 一 下 continue 和 break 的 作用 。 和 其 他 语言 一 样 ， 在 
循环 迭代 中 ， 你 可 以 选择 跳 过 某 些 操作 ， 也 可 以 完全 结束 循环 : 
for x in range(10): 
LT 
continue 
5 
break 
DETnE: (XY 


上 述 代 码 的 输出 如 下 : 
02345 


上 面 的 例子 中 对 从 0 到 9 的 数值 进行 了 处 理 。 如 果 遇 到 1， 就 不 进行 处 理 ， 而 是 继续 下 一 次 
和 迭代， 所 以 1 将 被 跳 过 。 如 果 数 值 大 于 5， 就 跳出 循环 ， 完 全 结束 操作 。 我 们 预期 的 结果 是 输出 
从 0 到 5 的 数值 ， 除 了 1 之 外 。 如 果 是 1， 就 跳 过 去 。 结 果 也 正 是 如 此 。 


while 循环 
还 有 一 种 循环 是 while 循环 ， 很 多 语言 中 都 将 while 循环 作为 标准 的 话 法 : 
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光志 : 光 

while (x < 10): 
BELTt (RY) 
> 


上 述 代码 的 输出 如 下 : 


Ql 3 i456" 7 :89 


我 们 从 x = 0 开始 ， 只 要 x < 10， 就 打印 出 x， 并 将 x 增加 1。 这 个 过 程 不 断 重复 ,不 断 
增加 x， 直 到 x 不 再 小 于 10， 就 结束 循环 。 这 个 例子 和 前 面 的 第 一 个 例子 功能 相同 ， 只 是 实现 
的 方式 不 同 ， 它 使 用 while 循环 打印 出 了 0~9 的 数值 。 这 些 例子 都 非常 简单 ， 如 果 你 之 前 有 过 

些 编程 或 脚本 经 验 ， 那 么 理解 它们 轻而易举 。 


要 想 真正 理解 这 些 例 子 , 最 好 的 方式 就 是 动手 去 做 , 实际 运行 这 些 代码 。 下 面 就 来 实际 练习 
一 下 吧 。 
























































1.6.3 ”探索 活动 
下 面 是 一 个 稍微 有 些 难度 的 练习 。 











In []:|| 


























这 是 一 个 很 好 的 小 代码 段 ， 你 可 以 在 里 面 编写 Python 代码 并 运行 测试 。 你 的 任务 是 编写 代 
码 来 创建 一 个 整数 列表 ， 在 列表 元 素 之 间 和 欠 代 ， 并 打印 出 其 中 的 偶数 。 


这 个 练习 并 不 难 ， 在 notebook 文件 中 能 找到 示例 ， 你 需要 做 的 只 是 将 示例 代码 组 织 在 一 起 
并 让 它们 运行 起 来 。 我 们 的 目的 不 是 给 你 一 个 难题 ， 而 是 让 你 建立 起 信心 ， 去 编写 、 调 试 和 运行 
自己 的 Python 代码。 我 强烈 建议 你 动手 练习 。 所 以 ， 视 你 好 运 ， 也 欢迎 你 来 到 Python 世界 。 


我 们 的 Python 速成 课 到 此 为 止 ， 很 显然 ， 它 只 包含 了 一 些 最 基础 的 内 容 。 在 后 续 章 节 中 ， 
我 们 还 会 介绍 更 多 的 例子 ,也 会 介绍 更 多 的 概念 。 如 果 你 觉得 现在 学 习 起 来 有 点 困难 , 那么 也 许 
是 因为 你 在 编程 或 脚本 方面 的 经 验 太 少 了 。 在 继续 学 习 之 前 ， 最 好 再 复习 一 下 Python 基础 知识 。 
如 果 你 没有 问题 ， 那 么 我 们 继续 。 






















































































1.7 ”运行 Python 脚本 


本 书 从 头 至 尾 都 使 用 IPython/Jupyter Notebook 格式 的 文件 ( 即 .ipynb 文件 )， 这 种 文件 非常 
适合 本 书 ， 因 为 我 们 既 可 以 在 文件 中 写 代码 ， 又 可 以 写 一 些 文字 来 解释 这 些 代 码 , 读者 还 可 以 使 
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用 这 种 文件 来 进行 实际 的 练习 。 




















当然 ， 这 种 文件 只 是 一 个 很 好 的 起 点 。 在 实际 工作 中 ， 你 可 能 不 会 使 用 了 Python/Jupyter 
Notebook 来 运行 Python 代码 ， 所 以 本 书 也 会 简单 地 介绍 一 下 运行 Python 代码 的 其 他 方式 ， 以 及 
交互 地 运行 Python 代码 的 其 他 方式 。Python 是 非常 灵活 的 。 来 看 一 下 吧 。 

















1.7.1 ”运行 Python 代码 的 其 他 方式 


你 应 该 清楚 ， 有 多 种 方式 可 以 运行 Python 代码 ， 本 书 中 会 采用 IPython/Jupyter Notebook 这 
种 格式 。 但 在 实际 工作 中 ， 你 不 会 通过 notebook 来 运行 代码 ， 而 是 会 使 用 独立 的 脚本 来 运行 






































和 运 休 。 

下 面 将 介绍 如 何 运 行 Python 代码 。 
园 Editor- Canopy i x 
File Edit View Search Run Tools Window Help 

37 国 园 | 守 售 | 久 DDDD 村 :Pe-SI 几 

testpy 回 
iter: |Al Files (®) 1 listofNumbers = [1, 2, 3, 4, 5, 6] 
2 


a 3 for number in listOfNumbers: 
和 入 print (number), 
testpy 


a 


5 if (number % 2 == 9): 
6 print ("is even”) 
7 else: 

8 print ("is odd") 
9 
19 


print ("Hooray! We're all done. Let's party!") 





Python CiWsersbhagyashree ¥ x 
Welcome to Canopy’s interactive data-analysis environment! A 
Type '?' for more information. 

||Python 3.5.2 |Enthought, Inc. (x86_64)| (default, Mar 2 2017, 16:37:47) [MSC v.1900 64 bit (AMD64)] 

Type "copyright”, "credits” or "license” for more information. 


IPython 5.3.0 -- An enhanced Interactive Python. 

? -> Introduction and overview of IPython's features. 
%quickref -> Quick reference. 

elp -> Python's own help system. 

















object? -> Details about 'object'，use 'object??’ for extra details. 

In [9]: 

| v 
Cursor pos 10: 47 |Python 2 ~\Desktop\DataScience\DataScience\test.py 





回 到 本 书 的 第 一 个 例子 ， 说 明 一 下 空白 的 重要 性 。 在 notebook 文件 中 选中 并 复制 代码 ， 然 
后 粘贴 到 一 个 新 文件 中 。 


点 击 最 左边 的 New 按钮 ， 创 建 一 个 新 文件 ， 粘 贴 代 码 ， 并 将 文件 保存 为 testpy， 这 里 的 py 
是 Python 脚本 的 常用 扩展 名 。 现 在 可 以 使 用 多 种 方式 来 运行 这 个 脚本 。 




















1.7.2 ”在 命令 行 中 运行 Python 脚本 


可 以 在 命令 行 中 运行 Python 脚本 。 在 Tools 菜单 中 选择 Canopy Command Prompt， 就 可 
以 打开 一 个 命令 行 窗口 ， 并 且 所 有 运行 Python 代码 需要 的 环境 变量 已 经 设置 好 了 。 我 们 只 需要 
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输入 python test .py 就 可 以 运行 脚本 ， 得 到 需 























女 : 的 结 =DNo 





odd 
even 
odd 
even 
odd 


even 


whP 靖 一 


[= 





画 Canopy Command Prompt 


Canopy 64Dp1t) E:\Datascience 


Hooray! We're all done. 


(Canopy 64bit) E: 


python test.py 


Let's party! 


Datascience> 











在 实际 工作 中 ， 你 可 
地 方 。 运 行 实际 的 脚本 就 是 这 


1.7.3 使 用 Canopy IDE 





还 可 以 使 用 IDE 0 在 Canopy 中 ， 





能 需要 像 上 面 这 相 




















运行 脚本 ， 也 许 是 在 Crontab 中 
么 简单 。 现 在 你 可 以 关闭 命令 和 











也 许 是 在 其 他 什么 


行 窗口 了 。 

















行 结果 


者 点 击 播放 图 标 来 运行 脚本 。 





可 以 使 用 Run 菜单 中 的 Run File 菜 





会 显示 在 底部 的 输出 窗口 中 











单项 , 或 
如 下 面 的 屏幕 截图 所 示 。 









































中 
File Edit View Search Run Tools Window Help 
3- 目 旧 已 | 棉 i 了 >- 芝 | 峰 
Fie Browser x| testpy 回 
Fiter: |AlFies (9 1 listofNumbers = [1, 2, 3, 4, 5, 6] 
bhagyashree ee 
~ 着 辣 es 3 for number in listOfNumbers: 
DO 4 print (number), 
testpy 5 if (number % 2 
6 
7 
8 
9 
10 print ("Hoo done. Let's party!”) 
%quickref -> Quick reference. ~ 
help -> Python's own help system 
object? -> Details about "object'，use "object?3?3， for extra details 
In [9]: %run "C:\Users\bhagyashree\Desktop\Data 
1 
is odd 
2 
is even 
3 
is odd 
4 
is even 
5 
is odd 
6 
is even 
Hooray! We're all done. Let's party 
v 
Cursor pos 10: 47 |Python2 > ~\Desktop\DataScience\DataScience\test.py 
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最 后 , 还 有 另外 一 种 方式 。 你 也 可 以 在 底部 窗口 中 以 交互 的 方式 来 运行 脚本 。 可 以 每 次 输入 | 
一 条 Python 命令 ， 然 后 在 下 图 所 示 的 环境 中 运行 。 

















In [1]: %run "C:/Users/joeld/Desktop/Data Science/DataScience/test.py" < 


1 

2 is even 

3 is odd 

4 is even 

5 is odd 

6 is even 

Hooray! We're all done. Let'’s party! 


na 


In [2]: | 








例如 ， 可 以 先 创建 一 个 列表 stuff， 其 中 的 元 素 为 1，2，3，4， 然 后 输入 len (stuff) ， 
就 可 以 得 到 4。 








Python C:WUsersVoeld wv Xx 








In [9]: stuff= [1, 2, 3, 4] 


In [16]: len(stuff) 
Out[16]: 4 








输入 for x in stuff: print x， 可 以 得 到 1 2 3 4。 





Python 

In [7]: for x in stuff: 
print (x), 

] 

2 

3 

4 

In [8]: 














所 以 ， 在 交互 式 命令 行 中 ， 你 可 以 每 次 输入 一 条 命令 ， 并 依次 运行 。 在 这 个 例子 中 ，stuff 
是 一 个 新 创建 的 变量 ， 是 驻 留 在 内 存 中 的 一 个 列表 ， 有 点 像 其 他 语言 中 的 全 局 变量 。 


如 果 想 重启 这 个 环境 ， 去 掉 变 量 stuff 并 重新 开始 ， 那 么 可 以 使 用 Run 菜单 中 的 Restart 
Kernel 功能 ， 这 会 给 我 们 一 个 完全 整洁 的 环境 。 
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Welcome to Canopy's interactive data-analysis environment! 
Type '?’' for more information. 


In [1]: | 








现在 我 们 有 了 一 个 整洁 且 全 新 的 Python 环境 。 如 果 再 次 输入 stuff， ws 它 根本 不 存 
在 ， 因 为 这 是 一 个 全 新 的 环境 。 但 是 可 以 重新 定义 stuff， 将 它 的 值 修改 为 [4，5，6]。 














Welcome to Canopy's interactive data-analysis environment! 
Type '?’' for more information. 


In [1]: stuff 

NameErrorTraceback (most recent call last) 
<ipython-input-1-9eb84090956c> in <module>() 
----> 1 stuff 


NameError: name 'stuff’ is not defined 


WW | 


In [2]: stuff = [4, 5, 6] 


In [3]: | - 








这 样 ， 我们 就 有 了 3 种 运行 Python 代码 的 方式 : IPython/Jupyter Notebook ( 本 书 所 采用 的 方 
式 ， 因 为 它 是 一 种 非常 好 的 学 习 工 具 ); 以 独立 的 脚本 文件 方式 来 运行 ;在 交互 式 的 命令 行 环 境 
中 运行 。 








你 应 该 记 住 这 3 种 方式 。 本 书后 面 内 容 中 使 用 的 都 是 IPython/Jupyter Notebook。 但 再 次 强调 ， 
在 实际 工作 中 ， 还 有 其 他 两 种 方式 可 以 选择 。 


1.8 ”小结 


本 章 先 介绍 了 学 习 本 书 的 基础 一 一 安装 Enthought Canopy。 然 后 安装 了 一 些 程序 库 和 扩展 包 。 
此 外 还 通过 一 些 Python 代码 介绍 了 Python 基础 知识 ,包括 模块 、 列 表 和 元 组 ， 以 及 Python 中 的 
函数 和 循环 。 最 后 运行 了 几 个 简单 的 Python 脚本 。 


下 一 章 将 开始 学 习 统 计 和 概率 的 相关 知识 。 








统计 与 概率 复习 以 及 
Python 实现 











本 章 将 复习 儿 个 与 统计 学 和 概率 相关 的 基本 概念 ， 这 些 概念 对 于 数据 科学 家 是 非常 重要 的 。 
我 们 将 通过 几 个 例子 来 说 明 这 些 概 念 ， 并 介绍 如 何 使 用 真正 的 Python 代码 来 实现 这 些 例子 。 


本 章 将 介绍 以 下 内 容 : 


口 数据 类 型 以 及 相应 的 操作 ; 

口 均值 、 中 位 数 、 众 数 、 标 准 差 和 方差 等 统计 概念 ; 
口 概率 密度 函数 和 概率 质量 函数 ; 

口 数据 分 布 类 型 以 及 相应 的 统计 图 形 ; 

口 百 分 位 数 与 矩 。 





2.1 数据 类 型 


如 果 你 想 成 为 一 名 数据 科学 家 ， 就 必须 了 解数 据 类 型 ,知道 如 何 对 数据 进行 分 类 ， 并 对 不 同 
类 型 的 数据 采取 不 同 的 处 理 方式 。 下 面 来 看 看 你 可 能 遇 到 的 不 同 “ 风 味 ” 的 数据 。 
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数据 类 型 非常 基本 , 但 就 是 从 这 个 简单 概念 开始 , 我 们 才能 逐步 学 习 更 复杂 的 数据 挖掘 和 机 
需 学 习 方 法 。 知 道 要 处 理 的 数据 是 什么 类 型 是 非常 重要 的 ， 因 为 数据 类 型 不 同 ， 需 要 采用 的 处 理 
技术 也 不 同 。 本 章 主要 讨论 以 下 三 种 特定 数据 类 型 : 
口 数值 型 数据 ; 
口 分 类 数据 ; 
口 定 序数 据 。 
再 次 强调 ,对 于 不 同类 型 的 数据 , 需要 采用 不 同 的 处 理 技 术 ， 所 以 一 定 要 清楚 你 处 理 的 是 哪 
种 类 型 的 数据 。 

































































2.1.1 数值 型 数据 


先 从 数值 型 数据 开始 , 它 可 能 是 最 常见 的 数据 类 型 。 数 值 型 数据 主要 用 来 表示 可 以 测量 的 定 
量 数据 ， 比 如 人 的 身高 、 页 面 加 载 时 间 、 股 票 价格 ,等 等 。 数 值 型 数据 一 般 是 可 变 的 、 可 测量 的 ， 
或 者 是 某 个 范围 内 的 概率 。 数 值 型 数据 主要 有 两 种 。 


1. 离散 型 数据 


离散 型 数据 一 般 是 基于 整数 的 , 可 以 用 作 某 种 计数 。 比 如 , 一 位 顾客 一 年 的 购买 数量 就 只 能 
用 离散 型 数据 表示 。 他 可 以 买 一 件 东西 、 两 件 东西 、 三 件 东西 ， 但 不 能 买 2.25 件 东西 或 三 又 四 
分 之 三 件 东 西 。 离 散 型 数据 要 受到 整数 的 限制 。 

2. 连续 型 数据 

另 一 种 数值 型 数据 是 连续 型 数据 , 这 是 一 种 可 以 在 无 限 范围 内 取 值 的 数据 , 并 且 可 以 是 小 数 。 
例如 人 的 身高 可 以 有 无 限 种 可 能 取 值 。 你 可 以 是 1.79 米 高 。 连 续 型 数据 也 可 以 表示 某 种 时 间 ， 
比如 在 某 个 网 站 上 停留 的 时 间 可 以 有 无 限 种 取 值 ， 你 可 以 在 一 个 网 站 上 停留 10.7625 秒 。 连 续 型 
数据 还 可 以 用 来 表示 某 一 天 的 降水 量 。 同 样 ， 精 确 度 是 无 穷 的 。 这 些 都 是 连续 型 数据 的 例子 。 


概括 一 下 ,数值 型 数据 就 是 可 以 使 用 数值 来 定量 测量 的 数据 , 它 可 以 是 离散 的 ， 比 如 基于 整 
数 的 计数 ， 也 可 以 是 连续 的 ， 这 时 就 有 无 限 种 可 能 的 取 值 。 





































































































2.1.2 ”分 类 数据 
第 二 种 数据 类 型 是 分 类 数据 ， 这 是 一 种 没有 内 在 数值 意义 的 数据 。 


一 般 来 说 ,你 不 能 直接 比较 两 个 分 类 数据 。 分 类 数据 包括 性 别 、 是 / 否 问 题 、 种 族 、 居 住地 、 
和 品 分 类 、 政 党 ,等 等 。 你 可 以 为 这 些 类 别 分 配 一 个 数值 ,我 们 也 经 常 这 么 做 , 但 这 些 数 值 没有 
一 般 的 数学 意义 。 
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例如 , 可 以 说 得 克 萨 斯 州 的 面积 比 佛罗里达 州 的 面积 大 , 但 是 不 能 说 得 克 萨 斯 州 比 佛罗里达 
州 大 ， 它 们 只 是 分 类 数据 ， 并 没有 真正 的 定量 数学 意义 ， 我 们 只 是 用 它们 来 表示 事物 的 分 类 。 

我 们 可 以 为 每 个 州 分 配 一 个 数值 ， 比 如 佛罗里达 州 的 编号 是 3， 得 克 萨 斯 州 的 编号 是 4， 但 
是 , 这 里 的 3 和 4 之 间 没 有 任何 真正 的 关系 ,只 是 一 种 简写 , 为 了 更 简洁 地 表示 分 类 。 分 类 数据 
没有 内 在 的 数学 意义 ， 只 是 用 来 在 分 类 的 基础 上 表示 不 同类 别 的 数据 。 

























































































2.1.3 定 序数 据 


最 后 一 种 数据 类 型 是 定 序数 据 , 它 类 似 于 数值 型 数据 和 分 类 数据 的 混合 体 。 最 常见 的 定 序数 
据 是 对 电影 或 音乐 的 星 级 打分 。 


























定 序数 据 

。 是 数值 数据 和 分 类 数据 的 混合 

。 有 数学 意义 的 分 类 数据 丽 丙 页 两 页 

。 例 : 1 至 5 级 的 电影 评分 Lf 豆 两 商 页 
评分 必须 是 1、2、3、4 或 5， 画 人 一 | 两 
评分 的 值 有 数学 意义 ， 评 分 育 仿 依依 页 


为 1 的 电影 比 评分 为 2 的 电影 差 














这 个 例子 中 有 从 1 星 到 5 星 的 分 类 数据 ，1 星 代表 很 差 ，5 星 代 表 非 常 好 。 但 是 ， 这 种 分 类 
数据 确实 具有 某 种 数学 意义 ,5 星 肯定 比 1 星 要 好 。 所 以 , 定 序数 据 就 是 具有 数值 关系 的 分 类 数 
据 。 从 质量 测量 的 角度 来 说 ，1 星 不 如 5 星 ，2 星 不 如 3 星 ，4 星 好 于 2 星 。 你 可 以 将 星 的 数量 
看 作 一 种 离散 型 数值 数据 ， 定 序数 据 和 离散 型 数值 数据 之 间 的 联系 非常 紧密 ， 有 时 候 可 以 互 换 
使 用 。 


我 们 介绍 了 3 种 数据 类 型 : 数值 型 数据 、 分 类 数据 和 定 序数 据 。 你 都 明白 了 吗 ? 别 害怕 , 不 
需要 你 交 什么 作业 。 
小 测验 : 在 下 面 的 例子 中 ， 数 据 是 数值 型 数据 、 分 类 数据 还 是 定 序数 据 ? 


(1) 第 一 个 例子 是 ， 你 的 油箱 里 还 有 多 少 油 ? 正确 答案 是 数值 型 数据 。 这 是 一 种 连续 型 数值 
数据 ， 因 为 油箱 里 的 油 量 有 无 限 多 种 取 值 。 油 量 是 有 上 限 的 , 但 取 值 是 无 限 多 的 ， 它 可 以 是 油箱 
的 3/4， 也 可 以 是 7116， 还 可 以 是 1/pi。 


(2) 如 果 你 正在 看 自己 的 健康 报告 ， 其 中 健康 状况 用 1~4 来 表示 ， 即 分 为 了 4 个 等 级 ,分 别 
对 应 很 差 、 一 般 、 好 和 很 好 , 那么 应 该 使 用 哪 种 数据 类 型 ? 这 是 一 个 典型 的 定 序数 据 的 例子 。 它 
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和 电影 评分 数据 非常 类 似 。 当 然 ， 根 据 使 用 模型 的 不 同 ， 你 也 可 以 使 用 离散 型 数据 来 处 理 ,但 是 
从 技术 方面 来 说 ， 我 们 还 是 将 其 称 为 定 序数 据 。 


(3) 使 用 哪 种 数据 来 表示 你 同学 的 种 族 情况 ? 很 显然 , 这 是 分 类 数据 。 你 不 能 对 人 种 进行 比较 ， 
他 们 只 是 肤色 不 同 。 你 只 能 按照 分 类 去 研究 ， 并 根据 某 些 维度 理解 他 们 之 间 的 不 同 。 


(4) 那么 用 岁数 表示 的 年 龄 呢 ?” 这 就 有 点 复杂 了 。 如 果 必 须 使 用 整数 来 表示 ， 比 如 40、50 或 
55， 那 就 应 该 是 离散 型 数值 数据 。 但 如 果 更 精确 一 些 ， 比 如 40 岁 3 个 月 2.67 天 ， 那 就 是 连续 型 
数值 数据 。 但 不 管 使 用 哪 种 方式 ， 都 是 数值 型 数据 。 


(5) 最 后 ， 如 何 表示 在 商店 中 花 的 钱 ? 当然 ， 这 是 连续 型 数值 数据 。 可见， 数据 类 型 非常 重 
要 ， 因 为 对 于 不 同类 型 的 数据 ， 应 该 采用 不 同 的 处 理 技术 。 

我 们 应 该 知道 ， 对 于 分 类 数据 ， 某 些 概念 的 实现 方式 与 数值 型 数据 是 不 同 的 。 

以 上 就 是 你 应 该 知道 的 常用 数据 类 型 , 本 书 也 将 重点 讨论 这 些 类 型 的 数据 。 这 些 概念 都 非常 
简单 。 你 已 经 会 使 用 数值 型 数据 、 分 类 数据 和 定 序数 据 ， 而 数值 型 数据 又 分 为 离散 型 数据 和 连续 


型 数据 。 对 于 不 同类 型 的 数据 ， 所 能 采用 的 处 理 方式 也 是 不 同 的 , 在 本 书后 面 内 容 中 你 会 看 到 这 
一 点 。 

































































2.2 均值 、 中 位 数 和 众 数 


先 来 复习 一 下 统计 学 知识 ， 这些 知 识 都 非常 基础 , 但 是 复习 一 下 没什么 坏处 。 来 看 这 几 个 概 
念 : 均值 、 中 位 数 和 众 数 。 你 肯定 听 说 过 这 些 概念 ， 下 面 来 看 看 它们 的 不 同 作 用 。 

对 于 多 数 读者 ,这 是 个 快速 的 复习 。 有 既然 已 经 开始 复习 统计 学 知识 ， 就 看 一 些 实际 数据 ,看 
看 如 何 测量 这 些 指标 。 























2.2.1 均值 


均值 是 平均 数 的 男 一 个 名 称 。 要 计算 一 个 数据 集 的 均值 ， 只 需 将 所 有 值 加 起 来 , 再 除 以 值 的 
个 数 即 可 。 








样本 总 额 /样本 总 数 
来 看 一 个 例子 : 计算 我 家 附近 每 个 家 庭 中 孩子 数量 的 均值 。 
假设 我 在 我 家 附近 挨家 挨户 调查 , 询问 每 家 有 几 个 孩子 (顺便 说 一 下 ,这 是 离散 型 数值 数据 
的 典型 例子 )。 比 如 我 发 现 第 一 个 家 庭 中 没有 孩子 ， 第 二 个 家 庭 中 有 两 个 孩子 ， 第 三 个 家 庭 中 有 
三 个 孩子 ,等 等 。 我 使 用 离散 型 数值 数据 建立 了 一 个 小 数据 集 ， 为 了 找 出 均值 ， 需 要 将 所 有 值 加 
起 来 ， 然 后 除 以 家 庭 数量 。 
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每 个 家 庭 中 的 孩子 数量 如 下 : 


0, 2, 3, 2, 1, 0, 0, 2, 0 








均值 为 0+2+3+2+1+0+0+2+0)/9=1.11。 


将 所 有 数 加 起 来 ， 再 除 以 家 庭 数量 ， 也 就 是 9， 就 可 以 算出 对 于 这 个 样本 ， 每 个 家 庭 中 孩子 2 
数量 的 均值 是 1.11。 均 值 就 是 这 样 计算 的 。 














2.2.2 ”中 位 数 


中 位 数 与 均值 有 所 不 同 。 计 算数 据 集中 位 数 的 方法 是 ， 先 将 数值 排序 〈 升序 或 降序 均 可 )， 
然后 找 出 位 于 中 间 的 值 。 


例如 ， 对 于 上 一 小 节 中 的 数据 集 : 





























0, 2, 3, 2, 1, 0, 0, 2, 0 
先 按 数值 进行 排序 ， 然 后 找 出 中 间 的 值 ， 也 就 是 1。 
0, 0, 0, 0, 1, 2, 2, 2, 3 
再 说 一 遍 ， 要 找 出 中 位 数 ， 需 要 先 对 数据 进行 排序 ， 然 后 找 出 中 间 的 点 。 
如 果 数 据点 是 偶数 个 ,那么 中 位 数 将 落 在 两 个 数据 点 之 间 ， 而 我 们 不 清楚 哪个 点 是 
中 间 点 。 在 这 种 情况 下 ， 可 以 算出 这 两 个 数据 点 的 均值 ， 将 这 个 均值 作为 中 位 数 。 
离 群 点 的 影响 


在 前 面 的 例子 中 ， 中 位 数 和 均值 非常 接近 ， 因 为 没有 离 群 点 。 每 个 家 庭 都 有 0、1、2 或 3 个 
孩子， 没有 那 种 有 100 个 孩子 的 特殊 家 庭 。 离 群 点 会 严重 影响 均值 , 对 中 位 数 的 影响 则 不 那么 大 。 
这 就 是 经 常 使 用 中 位 数 的 原因 。 





省 与 均值 相 比 ， 中 位 数 受 离 群 点 的 影响 较 小 。 

















有 些 人 总 是 喜欢 使 用 统计 学 来 误导 他 人 ， 在 本 书 中 ， 可 能 ， 我 总 是 会 揭穿 这 些 把 戏 。 


例如 ， 我 们 可 以 看 看 美国 家 庭 的 平均 收入 ，2016 年 的 统计 数字 是 72 000 美元 。 但 是 ， 这 并 
不 是 典型 美国 家 庭 的 真实 情况 。 原 因 是 ， 如 果 你 看 一 下 收入 的 中 位 数 ， 就 具有 51 939 美元 。 这 
是 为 什么 呢 ? 因为 收入 是 不 平衡 的 。 美 国有 一 些 非 常 富有 的 人 , 其 他 国家 也 一 样 ,但 美国 贫 富 差 
距 还 不 是 最 大 的 。 这 些 亿 万 富翁 或 超级 富 察 居住 在 华尔街 、 硅 谷 或 其 他 富 人 区 ,他 们 严重 影响 了 
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收入 均值 。 但 是 因为 人 数 较 少 ， 所 以 并 没有 对 中 位 数 产 生 实 际 的 影响 。 

这 是 一 个 非常 好 的 例子 ， 说 明了 对 于 平均 收入 来 说 ,中 位 数 比 均值 更 能 说 明 问 题 。 只 要 有 人 
提 到 均值 ,你 就 必须 思考 一 下 :数据 分 布 是 怎样 的 ? 是 否 有 离 群 点 会 影响 均值 ”如 果 答 案 是 “是 ”， 
你 就 应 该 看 看 中 位 数 ， 因 为 通常 中 位 数 比 均值 更 能 反映 实际 情况 。 





















































2.2.3” 众 数 


最 后 讨论 一 下 众 数 。 在 实际 工作 中 , 众 数 并 不 常用 , 但 也 不 能 只 关注 均值 和 中 位 数 而 忽略 众 
数 。 众 数 就 是 数据 集中 最 常见 的 值 。 
还 是 以 每 个 家 庭 中 孩子 的 数量 为 例 。 


bl 























0.2;32,10,0,20 

每 个 值 出 现 的 次 数 为 : 

0:4, 1:1, 2:3, 3:1 
所 以 众 数 为 0。 


如 果 只 看 哪个 值 出 现 得 最 频繁 ， 那 就 是 0， 所 以 众 数 为 0。 在 我 家 附近 ， 最 常见 的 家 庭 中 孩 
子 数量 是 0， 这 就 是 众 数 的 意义 。 

这 是 体现 连续 型 数据 和 离散 型 数据 区 别 的 一 个 典型 例子 ， 因 为 众 数 只 对 离散 型 数据 有 意义 。 
对 于 连续 型 数据 ， 我 们 不 能 说 出 哪个 值 出 现 得 最 频繁 ， 除 非 能 把 连续 型 数值 转换 为 离散 型 数值 。 
所 以 ， 这 也 是 一 个 体现 数据 类 型 重要 性 的 例子 。 





























i 众 数 只 对 离散 型 数值 数据 有 意义 ， 不 适合 连续 型 数据 。 








实际 工作 中 的 很 多 数据 都 是 连续 型 数据 , 这 可 能 就 是 众 数 应 用 比较 少 的 原因 。 但 为 了 内 容 的 


完整 性 ， 我 们 还 是 对 其 做 了 介绍 。 

我 们 简单 地 介绍 了 均值 、 中 位 数 和 众 数 , 这 是 几 种 最 简单 的 统计 量 。 我 希望 你 能 了 解 均值 和 
中 位 数 之 间 的 重要 区 别 以 及 它们 的 不 同 用 途 , 因为 人 们 经 常会 将 二 者 混淆 。 作 为 一 名 负责 任 的 数 
据 科学 家 ,请 你 一 定 要 清晰 地 表达 出 自己 的 想法 。 如 果 你 想 给 出 一 个 典型 值 , 那么 通常 使 用 中 位 
数 更 合适 ， 因 为 它 受 离 群 点 的 影响 较 小 。 请 牢记 这 一 点 。 


2.3 在 Python 中 使 用 均值 、 中 位 数 和 众 数 
下 面 使 用 Python 编写 一 些 实际 的 代码 ， 看 看 在 IPython Notebook 中 如 何 使 用 Python 来 计算 


> 
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均值 、 中 位 数 和 众 数 。 


打开 本 节 数 据 文件 中 的 MeanMedianMode.ipynb 文件 ， 如 果 你 还 没有 下 载 这 些 文件 ， 请 回 到 
前 面 的 相应 章节 去 下 载 ， 后面 章节 将 要 用 到 这 些 文件 。 





2.3.1 使 用 NumPy 包 计 算 均 值 


我 们 要 使 用 前 一 节 中 家 庭 收 入 的 例子 ,建立 一 些 虚构 的 数据 。 这 个 例子 中 建立 的 虚构 收入 数 
据 是 典型 的 美国 个 人 收入 ， 它 符合 正 态 分 布 ， 这 些 收 入 的 值 都 在 27 000 美元 附近 ， 标 准 差 为 
15 000。 所 有 数据 都 是 虚构 的 。 如 果 你 不 知道 什么 是 正 态 分 布 和 标准 差 ， 没 关系 ， 本 章 后 面 将 会 
介绍 这 些 知识 。 我 只 是 想 让 你 知道 这 个 例子 中 不 同 参数 的 意义 ， 后 面 将 做 解释 。 


在 Python notebook 中 , 需要 将 NumPy 导入 到 Python，NumPy 可 以 非常 容易 地 计算 均值 、 中 
位 数 和 众 数 。 我 们 直接 使 用 import numpy as np， 这 意味 着 导入 以 后 可 以 使 用 np 作为 numpy 
的 简写 。 


然后 ， 使 用 np .random.normal 子 数 创建 一 个 名 为 incomes 的 数值 列表 。 


import numpy as np 
























































incomes = np.random.normal (27000, 15000, 10000) 

np.mean (incomes) 

np.random.normal 子 数 的 3 个 参数 的 意义 是 ， 创 建 的 数据 集中 在 27 000 附近 ， 标 准 差 为 
15 000， 列 表 中 有 10 000 个 数据 点 。 


接 下 来 , 计算 出 这 些 数据 点 的 平均 数 , 或 称 均值 。 对 incomes 使 用 np .mean 函数 即 可 , 非 
常 简单 。 

运行 一 下 这 有 段 代码 。 请 确认 你 选择 了 这 个 代码 段 并 点 击 了 运行 按钮 。 因 为 这 些 收入 数值 是 随 
机 生成 的 ， 所 以 每 次 运行 结果 都 会 有 些 差别 ， 但 都 应 该 非常 接近 27 000。 

Outti]:.271.73.098561362742 

OK， 这 就 是 在 Python 中 计算 均值 的 方法 , 使 用 NumPy ( np .mean ) 非常 容易 实现 。 你 不 需 


要 写 一 大 堆 代 码 , 或 者 将 所 有 值 都 加 起 来 ,再 数 出 数值 的 数量 ,然后 做 除法 。NumPy 中 的 mean 
函数 可 以 完成 所 有 工作 。 


使 用 matplot1lib 进行 数据 可 视 化 


对 上 面 这 份 数据 进行 可 视 化 , 使 它 的 意义 更 清楚 一 些 。 这 需要 使 用 另 一 个 包 , 即 matplotlib， 
这 个 包 我 们 以 后 会 更 加 详细 地 介绍 ， 它 可 以 在 了 Python Notebook 中 生成 美观 的 图 形 ， 是 进行 数据 
可 视 化 的 一 种 非常 简单 的 方式 。 
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在 这 个 例子 中 , 我 们 使 用 matplot1lip 为 收入 数据 创建 一 张 直方 图 ,将 其 划分 为 50 份 。 主 要 
的 操作 就 是 将 连续 型 数据 离散 化 ， 然 后 调用 matplot1ib.pyplot 函数 生成 直方 图 。 代 码 如 下 : 








smatplotlib inline 

import matplotlib.pyplot as plt 
plt.hist(incomes, 50) 
plt.show!() 


选择 这 个 代码 段 ， 点 击 运行 按 钮 ， 可 以 生成 以 下 图 形 。 








0 
-40000 -20000 0 20000 40000 60000 80000 100000 














如 果 你 不 熟悉 直方 图 ,需要 学 习 一 下 ,那么 可 以 这 样 理解 : 离散 化 之 后 每 份 数 据 的 高 度 表 示 
该 数据 出 现 的 频率 。 


例如 ， 在 27 000 附近 ， 每 份 数据 中 大 约 有 600 个 点 ， 这 说 明 很 多 人 的 收入 在 27 000 美元 左 
右 。 但 对 于 像 80 000 这 样 的 离 群 点 来 说 ， 附 近 的 数据 就 非常 少 。 同 样 ， 有 些 贫困 者 的 负债 达到 
了 -40 000 美元 ， 当 然 ， 这 样 的 人 也 是 非常 少 的 ， 因 为 我 们 定义 的 是 正 态 分布 。 正 态 分 布 曲 线 就 
是 这 个 样子 。 后 面 将 会 更 加 详细 地 讨论 ， 现 在 只 是 让 你 有 个 大 致 的 了 解 。 












































2.3.2 ”使 用 NumPy 包 计 算 中 位 数 
计算 中 位 数 与 计算 均值 一 样 简单 。 NumPy 中 既 有 mean 函数 ， 也 有 median 函数 。 


对 数值 列表 incomes 使 用 median 函数 ， 就 可 以 计算 出 中 位 数 。 在 这 个 例子 中 ， 中 位 数 是 
26 911 美元 , 与 均值 26 988 美元 非常 接近 。 同 样 ， 因 为 数据 是 随机 生成 的 ,所 以 每 次 计算 结果 都 
有 些 差别 。 


np.median (incomes) 


上 述 代码 的 输出 如 下 : 
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Out [4]: 26911.948365056276 

















数据 中 不 会 有 很 多 离 群 点 ,因为 这 是 一 个 标准 的 正 态 分 布 。 当 没有 很 多 离 群 点 时 ,中 位 数 和 
均值 是 非常 接近 的 。 


分 析 离 群 点 的 作用 


为 了 说 明 离 群 点 的 作用 , 我 们 加 入 一 个 离 群 点 ， 比 如 某 个 高 收入 者 。 使 用 np .append 函数 ， 
手动 加 入 这 个 离 群 点 ， 它 的 值 是 10 亿 美元 。 



































incomes = np.append(incomes, [1000000000]) 








我 们 将 会 看 到 , 这 个 离 群 点 不 会 使 中 位 数 改 变 多 少 , 还 是 在 26 911 美元 附近 , 因为 中 心 点 的 
位 置 没 有 明显 的 变动 ， 和 前 面 例子 中 基本 一 样 : 


np.median (incomes) 
结果 如 下 : 

Out [5]: 26911.948365056276 
但 是 均值 会 明显 改变 : 
np.mean (incomes) 

结果 如 下 : 


Out[5] :127160.38252311043 





就 是 这 样 ! 这 是 一 个 说 明了 中 位 数 和 均值 可 以 有 很 大 不 同 的 非常 好 的 例子 , 尽管 有 些 人 想 把 
它们 混为一谈 。 一 个 离 群 点 就 可 以 将 数据 集 的 均值 改变 为 每 年 超过 127 160 美元 ， 但 实际 的 情况 
是 ， 数 据 集中 典型 的 个 人 年 收入 是 27 000 美元 左右 。 一 个 值 非常 大 的 离 群 点 就 可 以 改变 均值 。 




















这 个 故事 告诉 我 们 : 如 果 你 怀疑 存在 离 群 点 ,就 要 对 均值 或 平均 数 留 个 心眼 ,收入 分 布 就 是 
这 种 情况 。 

















2.3.3 使 用 SciPy 包 计 算 众 数 





最 后 来 看 一 下 众 数 。 我 们 将 生成 500 个 随机 整数 ， 范 围 从 18 到 90， 这 是 虚构 的 人 的 年 龄 。 


ages = np.random.randint (18, high=90, size=500) 
ages 























输出 结果 是 随机 的 ， 应 该 和 下 面 的 屏幕 截图 很 相似 。 
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out[7] : 














SciPy 包 和 NumPy 包 一 样 ， 包 括 了 很 多 使 用 方便 的 统计 函数 。 可 以 使 用 下 面 的 语法 从 SciPy 
包 中 导入 stats， 这 和 前 面 的 代码 有 些 差别 。 


from scipy import stats 
stats.mode (ages) 


这 段 代码 的 含义 是 ， 从 scipy 包 中 导入 stats， 并 还 是 称 其 为 stats， 这 意味 着 不 需要 像 
前 面 导入 NumPy 那 样 ， 为 其 取 一 个 别名 。 这 只 是 导入 扩展 包 的 不 同方 式 ， 两 种 方式 都 是 可 以 的 。 
然后 ， 对 随机 年 龄 列表 ages 使 用 stats .mode 函数 。 运 行 上 面 的 代码 ， 可 以 得 到 以 下 结果 : 


Out[11]: ModeResult (mode=array ([39]), count=array ([12])) 
所 以 ， 在 这 个 例子 中 ， 众 数 为 39， 这 是 数组 中 出 现 次 数 最 多 的 数 。 实 际 上 ， 它 出 现 了 12 次 。 
如 果 创 建 一 个 新 的 分 布 ， 就 会 得 到 完全 不 同 的 答案 ， 因 为 数据 是 完全 随机 的 。 再 次 运行 上 面 
的 代码 段 ， 创 建 一 个 新 的 分 布 。 


ages = np.random.randint (18, high=90, size=500) 
ages 





from scipy import stats 
stats.mode (ages) 


这 次 的 数值 分 布 如 下 。 
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Out[12]: array([41, 74, 26, 31, 31, 31, 28, 64, 59, 76, 88, 59, 53, 58, 29, 67, 55, 
82, 41, 46, 77, 41, 73, 52, 38, 87, 28, 87, 68, 47, 87, 66, 71, 77, 
85, 46, 22, 486, 74, 69, 44, 46, 72, 68, 69, 56, 19, 84, 80, 83, 22, 
63, 74, 31, 32, 20, 58, 71, 56; 43, 32, 67, 32 51s 79, 54; 25, 81, 
5 S50 6, 75, 3 3 Bs Ws 22 B53 2 7832 352 
78, 85, 37, 34, 83, 41, 52, 46, 55, 84, 64, 19, 86, 46, 65, 77, 808, 
82, 86, 65, 41, 35, 44, 45, 34, 46, 51, 83, 82, 53, 58, 84, 83, 29, 
47, 80, 75, 72, 81, 48, 75, 74, 57, 27, 71, 76, 65, 27, 75, 32, 26, 
34, 28, 58, 19, 18, 26, 73, 68, 31, 34, 46, 88, 76, 38, 78, 68, 71, 
45, 44, 47, 380, 39, 35, 68, 44, 45, 83, 64, 21, 35, 25, 78, 86, 53, 
65, 87, 66, 88, 48, 18, 29, 68, 58, 29, 67, 45, 83, 76, 62, 25, 41, 
56, 23, 68, 56, 59, 77, 64, 74, 39, 43, 24, 55, 88, 60, 19, 32, 49, 
59, 88, 69, 82, 56, 78, 34, 52, 85, 78, 79, 26, 37, 60, 40, 32, 208, 
81, 43, 47, 83, 67, 27, 38, 21, 24, 46, 43, 83, 79, 47, 36, 66, 37, 
76, 28, 48, 81, 58, 62, 27, 21, 88, 31, 62, 38, 83, 33, 41, 68, 38, 
43, 44, 49, 51, 82, 48, 53, 75, 56, 48, 38, 76, 37, 41, 62, 26, 32, 
53, 40, 89, 40, 19, 29, 73, 71, 81, 63, 36, 56, 38, 60, 67, 47, 20, 
62, 86, 84, 88, 37, 47, 35, 37, 26, 48, 36, 53, 19, 77, 46, 63, 87, 
60, 40, 72, 86, 41, 58, 29, 43, 36, 69, 75, 56, 55, 33, 66, 22, 46, 
73, 45, 38, 42, 51, 24, 18, 54, 45, 73, 37, 54, 84, 29, 73, 82, 47, 
55, 68, 42, 68, 25, 46, 89, 37, 28, 34, 24, 48, 61, 66, 72, 71, 38, 
58, 29, 24, 68, 38, 76, 67, 66, 19, 75, 33, 21, 21, 45, 38, 47, 69, 
71, 83, 58, 46, 24, 38, 47, 72, 25, 26, 77, 44, 39, 35, 36, 42, 73, 
78, 77, 62, 43, 84, 66, 41, 48, 69, 65, 52, 45, 85, 43, 77, 31, 58, 
61, 69, 71, 77, 89, 65, 41, 35, 88, 37, 87, 75, 21, 38, 73, 31, 66, 
25, 25, 69, 71, 46, 86, 66, 82, 24, 77, 44, 81, 72, 25, 50, 58, 22, 
85, 42, 44, 62, 71, 89, 77, 29, 65, 62, 62, 26, 65, 21, 49, 37, 82, 
26 72, 25 .353545,.51 63 87, 3255 23,. 72 535.33, 76; 的， 22 .22, 
87, 46, 46, 46, 89, 52, 55, 44, 66, 71, 78, 44, 78, 51, 73, 74, 44, 
71, 53, 84, 76, 61, 76, 33]) 














确认 你 选择 了 上 面 的 代码 段 ， 然 后 点 击 运行 按钮 ， 运 行 代码 。 
在 这 个 例子 中 ， 众 数 为 29， 它 出 现 了 14 次 。 


Out [11] : ModeResult (mode=array ([29]), count=array ([14])) 


众 数 是 个 非常 简单 的 概念 。 你 可 以 只 是 因为 好 玩 再 多 运行 儿 次 。 这 有 点 像 旋转 轮 盘 。 我 们 将 
次 创建 一 个 新 的 分 布 。 


以 上 就 是 对 均值 、 中 位 数 和 众 数 的 简单 介绍 。 使 用 SciPy 和 NumPy 包 可 以 很 容易 地 计算 它们 。 
一 些 练习 


我 要 给 你 一 些 任务 。 如 果 你 打开 了 MeanMedianExercise.ipynb 文件 ， 其 中 有 一 些 内 容 供 你 进 
行 练习 ， 我 希望 你 “的 起 袖子 ”真正 地 练习 一 下 。 


这 个 文件 中 提供 了 一 些 随 机 的 电子 商务 数据 , 这 些 数据 表示 每 项 交易 的 总 额 。 和 ee 
一 样 ， 这 些 数据 也 服从 正 态 分 布 。 你 的 任务 是 使 用 NumPy 包 找 出 这 些 数 据 的 均值 和 中 位 数 。 
项 任务 对 你 来 说 易如反掌 ， 所 有 需要 的 技术 都 可 以 在 MeanMedianMode.ipynb 文件 中 找到 。 


这 项 任务 的 重点 不 是 给 你 出 个 难题 ， 只 是 想 让 你 实际 地 编写 一 些 Python 代码 ， 并 相信 自己 
可 以 得 到 一 些 结果 ,来 完成 一 些 事情 。 所 以 ， 大 胆 去 做 吧 。 如 果 你 想 多 做 一 些 练习 ， 那么 可 以 随 
意 使 用 这 里 的 数据 分 布 , 看 看 能 对 数值 做 些 什么 。 你 可 以 试 着 添加 一 些 离 群 点 ,就 像 我 们 在 收入 











i 
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数据 中 做 的 那样 。 这 就 是 学 习 的 方法 ， 即 循序 渐进 ， 人 举一反三。 
如 果 你 准备 好 了 ,那么 下 面 接着 学 习 其 他 两 个 概念 : 标准 差 和 方差 。 


2.4 标准 差 和 方差 

下 面 讨论 标准 差 和 方差 。 你 可 能 听 说 过 这 两 个 名 词 , 但 这 里 要 深入 地 讨论 它们 的 意义 和 计算 
方法 。 它 们 是 测量 数据 分 布 的 分 散 程度 的 指标 ， 我 们 将 会 详细 介绍 。 

标准 差 和 方差 是 数据 分 布 的 两 个 基本 数量 指标 , 在 本 书 中 你 会 多 次 看 到 它们 。 所 以 , 我 们 来 
介绍 一 下 它们 的 意义 。 




















2.4.1 方差 


方差 和 标准 差 都 是 用 来 描述 数据 的 分 散 程度 的 , 也 就 是 数据 集 的 分 布 形 状 。 看 一 下 下 面 这 张 
直方 图 。 
































机 场 航班 到 达 频 率直 方 图 
En 
区 
水 
守 
每 分 钟 到 达 的 航班 数 








假设 我 们 有 一 些 机 场 航班 到 达 频 率 的 数据 。 这 张 直方 图 显示 ,根据 这 份 数 据 ， 每 分 钟 有 4 个 
航班 到 达 的 天 数 是 12 天 。 但 是 ， 数 据 中 还 是 有 一 些 离 群 点 。 有 一 天 每 分 钟 只 有 1 个 航班 到 达 ， 
还 有 一 天 每 分 钟 有 12 个 航班 到 达 。 阅 读 直 方 图 的 方法 是 找到 给 定 值 的 高 度 ， 它 表示 这 个 值 在 数 
据 中 出 现 的 次 数 。 直 方 图 的 形状 可 以 告诉 你 数据 集中 概率 分 布 的 很 多 信息 。 
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从 这 份 数据 可 以 知道 ， 机 场 中 最 常见 的 情况 是 每 分 钟 有 4 个 航班 到 达 ， 每 分 钟 有 1 个 或 12 
个 航班 到 达 的 情况 是 很 少见 的 。 我 们 还 可 以 关注 一 下 所 有 数字 的 概率 ， 不 但 每 分 钟 有 12 个 航班 
到 达 的 情况 很 少见 ， 每 分 钟 有 9 个 航班 到 达 也 非常 少见 ， 但 是 每 分 钟 8 个 的 情况 就 比较 多 了 。 直 
方 图 可 以 告诉 我 们 很 多 信息 。 

















a 方差 表示 数据 的 分 散 程度 。 


计算 方差 
通常 用 西格玛 的 平方 来 表示 方差 ,你 很 快 就 会 知道 为 什么 这 样 表示 。 现 在 ,你 只 需 知 道 方差 
是 数据 与 均值 的 差 的 平方 的 平均 数 就 可 以 了 。 


(1) 要 计算 一 个 数据 集 的 方差 ， 首 先 要 计算 出 均值 。 假 设 我 们 有 一 些 数据 ， 比 如 是 某 个 小 时 
内 队列 中 最 大 的 排队 人 数 。 第 一 个 小 时 是 1 个人， 然后 是 4、5、4、8。 


(2) 计算 方差 的 第 一 步 是 计算 均值 ， 或 称 平均 数 。 将 所 有 数值 相 加 ， 除 以 数据 点 的 数量 ， 可 
以 得 到 排队 人 数 的 均值 是 4.4， 即 (1 + 4+5+4+ 8)/5=4.4。 


(3) 下 一 步 是 找 出 每 个 数据 点 和 均值 之 间 的 差 。 我 们 已 经 知道 均值 是 4.4， 所 以 对 于 第 一 个 数 
据点 1， 这 个 差 是 1-4.4=-3.4; 第 二 个 数据 点 是 4， 差 是 4-4.4=-0.4， 以 此 类 推 。 这 样 就 得 到 
了 表示 数据 点 和 均值 之 间 差 的 一 些 整数 或 负数 (-3.4、-0.4、0.6、-0.4、3.6 )。 


(4) 我 们 需要 的 是 一 个 表示 整个 数据 集 方差 的 单个 数值 。 所 以 ， 下 一 步 就 是 计算 这 些 差 的 平 
方 。 只 要 算出 每 个 原始 数据 与 均值 之 间 的 差 ， 再 进行 平方 就 可 以 了 。 需 要 计算 平方 的 原因 有 如 下 
两 点 。 
口 首先 ， 我 们 和 希望 确保 负数 差 和 正 数 差 一 样 计算 在 方差 之 内 。 如 果 不 进 行 平方 ， 负 数 差 就 
会 和 正 数 差 互相 抵消 ， 这 很 糟糕 。 
口 其 次 ， 我 们 希望 给 予 离 群 点 更 大 的 权重 。 平 方 之 后 ,会 放大 那些 与 均值 差别 很 大 的 点 的 

作用 ， 同 时 确保 负数 差 和 正 数 差 起 到 的 作用 相同 。 

下 面 来 具体 计算 一 下 ，(-3.4) 是 正 数 11.56，(-0.4》 是 一 个 更 小 的 数 0.16， 因 为 它 更 接近 均 
值 4.4。 同 样 ，(0.6) 也 更 接近 均值 ， 只 有 0.36。 但 是 对 于 正 的 离 群 点 ，(3.6) 等 于 12.96。 所 以 得 
到 了 (11.56、0.16、0.36、0.16、12.96 )。 

要 计算 具体 的 方差 值 ， 只 需 计 算出 这 些 差 的 平方 的 平均 数 。 所 以 , 将 这 些 平 方 数 加 起 来 ,再 
除 以 5， 就 可 以 得 到 我 们 需要 的 值 ， 即 5.04。 

o’=(11.56+0.16+0.36+0.16+12.96)/5=5.04 


这 就 是 方差 的 计算 方法 。 
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2.4.2 ”标准 差 
通常 使 用 更 多 的 是 标准 差 ， 而 不 是 方差 。 标 准 差 就 是 方差 的 平方 根 ， 非 常 简单 。 


所 以 ， 如 果 知 道 了 方差 是 5.04， 那 么 标准 差 就 是 2.24。 这 就 是 为 什么 用 0 来 表示 方差 ， 
为 o 就 表示 标准 差 。 所 以 ， 如 果 计 算出 的 平方 根 ， 就 得 到 了 oc， 在 这 个 例子 中 ， 就 是 2.24。 





















































和 =5.04 
Oo = V3.04 =2.24 


通过 标准 差 找 出 离 群 点 
在 前 一 个 计算 方差 的 例子 中 ， 实 际 数据 的 直方 图 如 下 。 
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可 以 看 出 ，4 在 数据 集中 出 现 了 两 次 ，1、5 和 8 只 出 现 了 一 次 。 


人 们 经 常 使 用 标准 差 作 为 在 数据 集中 识别 离 群 点 的 一 种 方法 。 如 果 数 据点 在 均值 4.4 的 一 个 
标准 差 范 围 之 内 ,那么 它 就 是 正 态 分 布 中 的 一 个 典型 值 。 但 是 ， 从 上 图 可 知 , 数值 1 和 8 已 经 超 
出 了 这 个 范围 。 如 果 使 用 4.4 加 上 或 减 去 2.24， 那 么 可 以 得 到 7 和 2 ( 约 数 ) 1 和 8 都 超出 了 这 
个 标准 差 范 围 。 所 以 我 们 可 以 认为 ， 从 数学 角度 来 看 ，1 和 8 都 是 离 群 点 。 根 据 数据 点 与 均值 之 
间 有 多 少 个 标准 差 的 距离 ， 可 以 判断 它 是 不 是 离 群 点 。 








你 可 以 根据 数据 点 与 均值 之 间 有 多 少 个 标准 差 ( 有 时 也 说 有 多 少 个 西格玛 ) 的 距离 ， 
来 判断 它 是 不 是 离 群 点 。 


这 就 是 标准 差 在 实际 工作 中 的 一 种 应 用 。 








2.4.3 总 体 方差 与 样本 方差 
标准 差 和 方差 之 间 的 差别 非常 小 , 总 体 方差 和 样本 方差 也 是 如 此 。 如 果 你 处 理 的 是 完整 的 数 
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据 集 ， 即 全 部 的 观测 ， 那 么 方法 和 前 面 是 一 样 的 。 先 计算 出 均值 ， 然 后 计算 差 的 平方 的 平均 数 ， 
就 得 到 了 方差 。 


但 是 ， 如 果 对 数据 进行 了 抽样 ， 也 就 是 说 ,为 了 计算 方便 ,你 从 数据 中 提取 了 一 个 子 集 ， 那么 
计算 方法 就 会 有 此 改变 。 这 时 就 不 应 该 除 以 样本 数量 ,而 是 除 以 样本 数量 减 1。 下 面 来 看 一 个 例子 。 


我 们 使 用 前 面 排队 的 那个 例子 , 将 误差 平方 求 和 , 再 除 以 5( 数据 点 的 数量 ), 可 以 得 到 5.04。 
o2=(11.56+0.16+0.36+0.16+12.96)15= 5.04 


如 果 要 计算 样本 方差 ， 即 SS， 就 要 用 误差 平方 和 除 以 4， 也 就 是 (n - 1)。 这 样 就 可 以 求 出 样 
本 方差 是 6.3。 












































S2=(11.56+ 0.16+0.36+0.16+12.96)/4=6.3 


所 以 , 如 果 这 是 从 一 个 大 数据 集中 抽取 出 的 某 个 样本 , 就 应 该 这 样 计算 。 如 果 是 整个 数据 集 ， 
就 除 以 实际 的 观测 数量 。 这 就 是 总 体 方差 和 样本 方差 的 计算 方法 ， 但 背后 的 逻辑 是 什么 呢 ? 


为 什么 总 体 方差 和 样本 方差 会 有 这 种 区 别 ? 这 与 概率 有 关 。 你 可 能 不 想 过 多 地 讨论 概率 , 因 


为 会 涉及 很 多 复杂 的 数学 公式 。 本 书 会 尽量 不 使 用 数学 公式 ， 因 为 我 认为 概念 更 加 重要 。 总 体 方 
差 和 样本 方差 这 两 个 概念 太 基础 了 ， 你 经 常会 遇 到 。 


正如 我 们 看 到 的 ， 总 体 方差 通常 表示 为 西格玛 的 平方 (o” )， 西 格 玛 (oa) 是 标准 差 。 用 每 个 
数据 点 闻 减 去 均值 x， 对 差 进行 平方 ， 再 进行 求 和 ， 然 后 除 以 数据 点 的 个 数 N， 就 可 以 算出 总 体 
方差 。 可 以 用 下 面 的 公式 表示 : 








































































































pe EX- 
N 
口 了 表示 每 个 数据 点 ; 
口 表示 均值 ; 
口 W 表 示 数 据点 的 个 数 。 
样本 方差 用 中 表示， 公式 如 下 : 
RE = >(X-MY 
N-1l 


口 表示 每 个 数据 点 ; 
口 M 表 示 均 值 ; 
口 N- 1 表示 数据 点 的 个 数 减 1。 
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2.4.4 在 直方 图 上 分 析 标 准 差 和 方差 


下 面 写 一 些 代码 来 练习 一 下 标准 差 和 方差 。 如 果 你 下 载 了 StdDevVariance.ipynb 文件 ， 并 跟 
着 我 们 练习 的 话 ， 那 是 非常 好 的 ， 因 为 我 希望 你 能 这 么 做 。 这 里 要 做 的 和 前 面 的 例子 很 相似 , 代 
码 如 下 : 

smatplotlib inline 

import numpy as np 

import matplotlib.pyplot as plt 

incomes = np.random.normal (100.0, 20.0, 10000) 

plt.hist(incomes, 50) 

plt.show!() 

使 用 matplot1lib 绘 制 一 张 直方 图 ,表示 一 些 服 从 正 态 分 布 的 随机 数据 ,数据 集 名称 为 incomes。 
数据 集中 在 100 附近 ( 每 小 时 的 收入 ， 不 是 年 收入 )， 标 准 差 为 20， 数 据点 的 数量 为 10 000。 














运行 上 面 的 代码 段 ， 可 以 绘制 出 以 下 图 形 。 




















有 10 000 个 数据 点 集中 在 100 附近 ， 服 从 正 态 分 布 ， 衡 量 数据 分 散 程 度 的 标准 差 为 20。 可 
以 看 出 ，100 附近 的 数据 最 密集 ， 离 100 越 远 ， 数 据 越 稀 下 。 距 离 均值 一 个 标准 差 的 范围 是 80 
到 120 之 间 , 在 直方 图 中 可 以 看 出 ， 大 部 分 数据 点 都 落 到 这 个 范围 之 内 。 因 此 可 以 认为 ,这 个 范 
围 之 外 的 数据 点 都 是 不 正常 的 。 














2.4.5 “使 用 Python 计算 标准 差 和 方差 

使 用 NumPy 计算 标准 差 和 方差 也 非常 容易 。 如 果 你 想 计算 前 面 生成 的 数据 集 的 标准 差 ， 调 
用 sta 函数 即 可 。 当 NumPy 创建 列表 时 ,创建 的 不 是 普通 Python 列表 , 而 是 有 很 多 附加 内 容 的 
列表 ， 所 以 可 以 对 这 个 列表 调用 多 个 函数 ， 比 如 使 用 sta 来 计算 标准 差 。 代 码 如 下 : 





incomes .sta() 


2.5 ”概率 密度 函数 和 概率 质量 函数 _45 





输出 结果 如 下 《请 注意 我 们 使 用 的 是 随机 数据 ， 所 以 你 的 结果 和 下 面 的 结果 会 有 些 不 同 ): 


20.024538249134373 
运行 代码 后 ， 会 得 到 一 个 非常 接近 20 的 数 ， 因 为 当 生 成 随机 数据 时 ， 使 用 的 标准 差 参 数 就 
是 20。 我 们 希望 标准 差 是 20， 结 果 是 20.02， 非 常 接近 。 
使 用 var 函数 可 以 计算 方差 。 
incomes .var () 
结果 如 下 : 


400.98213209104557 


结果 非常 接近 400， 即 20”。 没 错 ， 理 应 如 此 ! 标准 差 是 方差 的 平方 根 ， 或 者 说 方差 是 标准 
差 的 平方 。 上 面 的 计算 验证 了 这 个 结论 。 


















































2.4.6 自己 动手 


我 希望 你 开始 动手 练习 ， 修 改 并 实现 这 些 代码 ， 然 后 试验 不 同 的 参数 来 生成 正 态 分 布 数据 。 
请 记 住 ， 这 些 参数 确定 了 数据 分 布 的 形状 。 那 么 ， 如 果 修 改 了 均值 ,会 发 生 什么 情况 呢 ? 均值 很 
重要 吗 ? 会 影响 数据 分 布 的 形状 吗 ? 为 什么 不 杂 自 试 一 下 ， 找 到 答案 呢 ? 


试 着 修改 一 下 标准 差 ， 看 看 会 如 何 影响 图 形 的 形状 。 比 如 将 标准 差 修 改 为 30， 看 看 会 有 什 
么 影响 。 或 者 改 得 更 大 一 点 ， 比 如 修改 为 50。 如 果 改 成 50 的 话 ， 你 将 看 到 图 形 会 变 得 更 宽 。 再 
试 试 其 他 值 ， 看 看 这 些 值 的 作用 。 试 验 多 个 不 同 的 例子 ， 看 看 不 同 参数 的 效果 , 这 这 是 提升 对 标准 
差 和 方差 的 直觉 的 唯一 方法 。 


以 上 就 是 对 标准 差 和 方差 的 练习 。 通 过 这 些 练习 ,我 希望 你 对 标准 差 和 方差 更 加 熟悉 。 它 们 
是 非常 重要 的 概念 , 本 书 中 会 多 次 使 用 标准 差 ， 你 的 数据 科学 家 生涯 中 也 同样 如 此 。 请 确认 你 完 
全 理解 了 这 两 个 概念 。 下 面 继续 学 习 其 他 内 容 。 


2.5 概率 密度 函数 和 概率 质量 函数 


本 书 中 已 经 介绍 了 正 态 分 布 函数 的 一 些 例子 ， 这 也 是 概率 密度 函数 的 例子 。 除 正 态 分 布 外 ， 
还 有 其 他 类 型 的 概率 密度 了 数 。 下 面 来 看 看 概率 密度 函数 的 意义 ， 以 及 一 些 其 他 例子 。 







































































2.5.1 概率 密度 函数 


下 面 讨论 概率 密度 函数 。 本 书 中 已 经 使 用 了 一 种 概率 密度 函数 ， 只 是 当时 没有 这 样 称呼 它 。 
下 面 正式 介绍 一 下 概率 密度 函数 。 例如 , 我 们 已 经 使 用 了 多 次 的 正 态 分 布 就 是 概率 密度 函数 的 一 
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个 例子 。 下 图 就 是 一 条 正 态 分 布 曲 线 。 





示例 : 正 态 分 布 
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从 概念 上 很 容易 认为 这 张 图 表示 的 就 是 一 个 给 定 值 发 生 的 概率 。 但 对 连续 型 数据 来 说 , 这 种 
说 法 有 点 误导 , 因为 在 一 个 连续 型 数据 分 布 中 , 有 无 限 多 个 可 能 的 数据 点 。 这 个 值 可 能 是 0、0.001 
或 0.00001， 所 以 一 个 特定 值 发 生 的 实际 概率 是 非常 非常 小 的 ， 甚 至 是 无 穷 小 。 概 率 密度 函数 实 
际 上 表示 的 是 一 个 特定 范围 的 值 发 生 的 概率 ， 这 就 是 概率 密度 函数 的 意义 。 


例如 ,在 上 图 的 正 态 分 布 中 ， 在 均值 (0 ) 和 距 均 值 一 个 标准 差 ( 10 ) 的 范围 内 ， 一 个 数据 
点 有 34.1% 的 可 能 性 落 在 这 个 范围 内 。 你 可 以 收 紧 或 放松 这 个 范围 ,来 找 出 这 个 实际 的 值 ， 这 就 
是 理解 概率 密度 函数 的 方法 。 对 于 一 个 特定 范围 ， 它 给 出 了 数据 点 落 在 这 个 范围 内 的 概率 。 


口 如 图 所 示 , 在 均值 (0 ) 附近 一 个 标准 差 (-1oc 和 1o ) 的 范围 内 ,数据 点 很 可 能 落 在 这 里 。 
如 果 把 均值 两 边 的 数值 相 加 , 就 可 以 得 到 68.2%, 这 就 是 数据 点 落 在 均值 两 侧 一 个 标准 差 
范围 内 的 概率 。 

口 然而 ， 如 果 考 虑 落 在 两 个 标准 差 和 三 个 标准 差 (-3o 和 -26 以 及 2o 和 30 ) 之 间 的 概率 ， 

那 就 是 一 个 非常 小 的 值 ， 仅 稍稍 超过 4% ( 精确 一 点 ， 是 4.2% )。 

口 如 果 落 在 三 个 标准 差 (-3c 和 3c ) 以 外 ， 那 概率 就 更 小 了 ， 还 不 到 1%。 

所 以 ， 这 张 图 形象 地 表示 出 了 一 个 特定 数据 点 出 现 的 概率 。 概 率 密度 函数 给 出 了 数据 点 落 


在 一 个 给 定 范围 内 的 概率 。 正 态 分 布 只 是 概率 密度 函数 的 一 个 例子 , 稍 后 我 们 会 介绍 更 多 的 概率 
































2.5.2 ”概率 质量 函数 


如 果 你 处 理 的 是 离散 型 数据 , 那么 其 处 理 方法 会 和 连续 型 数据 有 所 不 同 , 这 时 要 使 用 概率 质 
量 函 数 。 下 图 就 是 概率 质量 函数 。 
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正 态 分 布 概率 密度 函数 
0.3 二 项 式 概率 质量 函数 




















例如 ,你 可 以 绘制 一 条 连续 型 数据 的 正 态 分 布 概率 密度 函数 ,也 就 是 上 图 中 的 黑色 曲线 。 如 
果 像 绘制 直方 图 时 那样 操作 ,就 可 以 将 连续 型 数据 离散 化 ,转换 为 离散 型 数据 。 比 如 数值 3 出 现 
了 若干 次 , 那么 就 可 以 说 数值 3 出 现 的 概率 是 30% 多 一 点 。 概 率 质量 函数 就 是 离散 型 数据 发 生 概 
率 的 具体 表示 ， 它 看 上 去 很 像 直 方 图 ， 实 际 上 也 就 是 个 直方 图 。 






























































术语 差别 : 概率 密度 函数 是 一 条 曲线 ,描述 了 某 个 范围 内 的 连续 型 数据 出 现 的 概率 。 
概率 质量 函数 是 某 个 离散 值 出 现在 数据 集中 的 概率 。 
2.6 各 种 类 型 的 数据 分 布 


本 节 会 用 实例 介绍 一 些 概 率 分 布 函数 和 数据 分 布 , 使 你 对 数据 分 布 有 更 多 的 认识 , 并 学 会 如 
何 使 用 Python 来 对 数据 分 布 进行 可 视 化 。 


请 打开 随 书 下 载 的 Distributions.ipynb 文件 ， 跟 着 我 们 练习 。 


2.6.1 均匀 分 布 
先 从 一 个 非常 简单 的 例子 开始 : 均匀 分 布 。 均 匀 分 布 意味 着 在 给 定 范围 内 ， 数 值 出 现 的 概率 
是 一 条 水 平 固定 的 直线 。 


import numpy as np 
Import matplotlib.pyplot as plt 








values = np.random.uniform(-10.0, 10.0, 100000) 
plt.hist(values, 50) 
plt.show!() 
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使 用 NumpPy 的 random.uniform 函数 , 可 以 创建 一 个 均匀 分 布 。 上 面 代 码 的 含义 是 ,生成 
一 组 服从 均匀 分 布 的 随机 值 ， 取 值 范 围 从 -10 到 10， 数 量 为 100 000 个 。 如 果 为 这 些 值 创建 一 张 
直方 图 ， 就 应 该 是 下 面 这 个 样子 。 
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在 这 份 数 据 中 ， 取 值 范 围 内 的 每 个 值 出 现 的 概率 都 是 相同 的 。 这 与 正 态 分 布 不 同 , 正 态 分 布 
中 的 值 都 集中 在 均值 附近 ， 均 匀 分 布 中 的 值 在 取 值 范围 内 出 现 的 概率 是 相同 的 。 

那么 均匀 分 布 的 概率 分 布 函数 是 什么 形状 呢 ? 在 -10 到 10 这 个 范围 之 外 , 没有 任何 值 , 在 这 
个 范围 之 内 , 则 是 一 条 水 平 直线 ， 因 为 所 有 值 出 现 的 概率 都 是 相同 的 。 所 以 均匀 分 布 的 概率 分 布 
函数 是 一 条 水 平 直 线 ， 因 为 概率 是 固定 的 。 每 个 值 , 或 者 每 个 范围 内 的 值 出 现 的 概率 都 和 其 他 值 
是 一 样 的 。 






































2.6.2” 正 态 分 布 或 高 斯 分 布 
正 态 分 布 义 称 高 斯 分 布 ，Python 的 scipy .stats.norm 包 有 一 个 paf (probability density 
function ) 函数 ， 可 以 对 其 进行 可 视 化 。 


看 下 面 的 例子 : 


from scipy.stats import norm 
import matplotlib.pyplot as plt 














XxX = np.,arange(-3, 3, 0.001) 
plt.plot (x, norm.pdf (x)) 


上 面 的 例子 中 使 用 函数 arange 创建 了 一 个 列表 x 用 来 绘制 图 形 ， 列 表 的 值 在 -3 和 3 之 间 ， 
增 量 为 0.001。 在 图 形 中 ,x 轴 使 用 的 就 是 这 些 列表 值 ，y 轴 是 一 个 正 态 分 布 函 数 norm.paf， 也 
就 是 x 值 对 应 的 正 态 分 布 概率 密度 函数 值 。 结 果 如 下 。 
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Out[3]: [<matplotlib.lines.Line2D at 6xde514e6>] 
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正 态 分 布 的 paf 函数 和 前 面 小 节 中 的 正 态 分 布 一 样 ， 均 值 为 0, 数值 -3、-2、-1、1、2 和 3 
是 标准 差距 离 。 

下 面 将 使 用 正 态 分 布 生成 随机 数值 。 这 个 操作 已 经 做 过 好 几 次 了 ,你 可 以 复习 一 下 。 来 看 如 
下 代码 段 : 

import numpy as np 


import matplotlib.pyplot as plt 


mm E50 

sigma = 2.0 

values = np.random.normal (mu, sigma, 10000) 

plt.hist(values, 50) 

plt.show!() 

上 面 代 码 使 用 了 NumPy 包 中 的 random.normal 函数 ,第 一 个 参数 mu 表示 我 们 希望 的 均值 ， 
sigma 是 数据 的 标准 差 , 表示 数据 的 分 散 程度 。 然 后 , 我 们 指定 了 使 用 正 态 分 布 生 成 的 数据 点 的 
数量 为 10 000。 这 就 是 使 用 概率 分 布 郴 数 , 也 就 是 本 例 中 的 正 态 分 布 函 数 , 生成 随机 数值 的 方法 。 
可 以 使 用 分 成 50 份 的 直方 图 绘制 出 这 些 数据 点 。 结 果 如 下 。 
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这 个 图 形 看 上 去 非常 像 正 态 分 布 , 但 因为 是 随机 数据 ,所 以 不 是 一 条 完美 的 曲线 。 由 于 概率 
的 原因 ， 有 些 值 难免 有 些 波 动 。 
2.6.3 ”指数 概率 分 布 与 指数 定律 

另 一 个 常见 的 分 布 函数 是 指数 概率 分 布 郴 数 ， 其 函数 值 以 指数 方式 下 降 。 

说 起 指数 下 降 ， 是 指 一 条 曲线 上 在 0 附近 的 值 发 生 的 概率 很 高 , 但 当 远 离 0 时 , 值 会 急速 下 
降 。 自 然 界 中 很 多 事物 都 符合 这 种 情况 。 

在 Python 中 ， scipy.stats 包 中 既 有 norm.pdf 函数 ， 也 有 expon.pdf 函数 ， 后 者 就 是 
Python 中 的 指数 概率 分 布 函 数 。 和 正 态 分 布 的 语法 一 样 ， 可 以 在 代码 中 使 用 指数 分 布 : 











from scipy.stats import expon 
import matplotlib.pyplot as plt 


x = np.arange(0, 10, 0.001) 
plt.plot (x, expon.pdf (x)) 


上 面 代码 中 使 用 NumPy 的 arange 函数 生成 了 一 个 列表 *, 其 中 的 值 从 0 到 10 , 步 长 为 0.001。 












































然后 ， 我 们 绘制 出 x 的 值 ， 相 应 的 了 轴 上 的 值 由 函数 expon .paf (x) 确定 。 输 出 的 图 形 就 是 一 条 
指数 下 降 曲 线 ， 如 图 所 示 。 
Out[5]: [<matplotlib.lines.Line2D at 86xe3364e6>] 
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2.6.4 二 项 式 概率 质量 函数 


我 们 也 可 以 对 概率 质量 函数 进行 可 视 化 ,比如 二 项 式 概率 质量 函数 。 还 是 使 用 和 前 面 一 样 的 
语法 ， 如 下 所 示 : 


























2.6 各 种 类 型 的 数据 分 布 51 





from scipy.stats import binom 
import matplotlib.pyplot as plt 


x = np.arange(0, 10, 0.001) 
plt.plot (x, binom.pmf (x)) 


这 次 不 使 用 expon 或 norm, 而 是 使 用 binom。 注意 ; 概率 质量 函数 处 理 的 是 离散 数据 , 前 二 
面 已 经 说 过 多 次 了 。 

上 面 代码 中 创建 了 一 组 离散 数值 x*， 范围 从 0 到 10， 间隔 为 001， 然 后 将 使 用 这 份 数据 绘制 
二 项 式 概率 质量 函数 。 在 binom.pmf 函数 中 , 我 们 使 用 两 个 参数 n 和 p 来 设 定数 据 的 形状 。 在 
这 个 例子 中 ，n 和 分 别 是 10 和 0.5。 结 果 如 下 图 所 示 。 















































Out[5]: [<matplotlib.lines.Line2D at 8x966b128>] 
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如 果 你 想 试验 一 下 不 同 的 参数 值 看 看 它们 的 效果 , 那 这 是 一 种 非常 好 的 方法 。 你 可 以 通过 这 
种 方法 ， 对 这 些 形状 参数 对 概率 质量 函数 的 影响 建立 起 直觉 。 











2.6.5 ” 泊 松 概率 质量 函数 

最 后 ， 你 或 许 听 说 过 泊 松 概率 质量 函数 ， 这 是 个 比较 特殊 的 分 布 , 与 正 态 分 布 非常 像 , 但 有 
一 点 不 同 。 

如 果 你 知道 了 在 给 定时 间 段 内 某 个 事情 发 生 的 平均 次 数 , 那么 就 可 以 使 用 泊 松 概率 质量 函数 
来 预测 未 来 某 个 时 段 这 个 事情 发 生 另 一 个 次 数 的 概率 。 

举 个 例子 ， 假 设 我 们 有 一 个 网 站 ， 每 天 的 平均 访客 数 是 500， 那 么 就 可 以 使 用 泊 松 概率 质量 
函数 来 估计 某 一 天 出 现 另 一 个 访客 数 的 概率 。 如 果 每 天 的 平均 访客 数 是 500， 那么 某 一 天 访客 数 
为 550 的 概率 是 多 少 呢 ? 这 就 需要 使 用 泊 松 概率 质量 函数 了 ， 来 看 下 面 的 代码 : 
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from scipy.stats import poisson 
import matplotlib.pyplot as plt 


mu = 500 

x rarange(taD00,. 00, -DVS) 

plt.plot (x, poisson.pmf (x, mu)) 

在 这 个 例子 中 ,平均 数 mu 是 500。 创 建 一 个 列表 x， 值 从 400 到 600， 间 隔 为 0.5。 使 用 
poisson.pmf 峭 数 绘制 这 些 数据 。 可 以 使 用 这 个 图 形 找 出 不 是 500 的 某 个 值 发 生 的 概率 ,假设 
它们 服从 正 态 分 布 。 





Out[7]: [<matplotlib.lines.Line2D at 8xe742e48>] 
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某 一 天 有 550 个 访客 的 概率 是 0.002， 即 0.2%， 很 有 意思 。 
好 了 ， 以 上 就 是 常见 的 数据 分 布 。 

















i 请 记 住 ， 概率 分 布 函 数 用 于 处 理 连续 型 数据 概率 质 量 函 数 用 于 处 理 离 艇 型 数据 。 


以 上 就 是 对 概率 密度 函数 和 概率 质量 函数 的 介绍 。 总 体 说 来 , 它们 是 表示 并 测量 给 定 范 围 内 
的 值 在 数据 集中 出 现 的 概率 的 一 种 方式 。 它 们 包含 非常 重要 的 信息 ,理解 它们 是 非常 重要 的 。 我 
们 将 多 次 用 到 这 些 概 念 。 下 面 接着 介绍 其 他 内 容 。 


2.7 ”上 百 分 位 数 和 算 


接 下 来 讨论 百 分 位 数 和 憩 。 在 新 闻 中 ,我们 每 时 每 刻 都 能 听 到 百 分 位 数 。 比 如 那些 收入 前 
1% 的 人 ， 就 是 百 分 位 数 的 一 个 例子 。 本 方 会 解释 什么 是 百 分 位 数 并 举 一 些 例子 。 然 后 将 讨论 矩 ， 
和 矩 是 一 个 很 棒 的 数学 概念 ,非常 好 理解 。 百 分 位 数 和 抢 是 两 个 非常 基本 的 统计 概念 ,我 们 要 为 以 
后 学 习 更 难 的 内 容 打下 基础 ， 所 以 请 静 下 心 来 ， 跟 着 我 学 习 这 些 概念 。 
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2.7.1 百 分 位 数 


先 来 看 看 什么 是 百 分 位 数 。 一 般 来 说 ， 如 果 将 数据 集中 所 有 数据 排 好 顺序 ， 那么 第 x 个 百 分 





位 数 就 是 这 样 一 个 点 : 数据 集中 x% 的 数据 都 小 于 它 。 

















党 见 的 例子 是 收入 分 布 。 候 设 我 们 在 过 论 美国 所 有 人 的 收入 , 并 对 收入 进行 了 排序 , 邓 和 第 于 











99 个 百 分 位 数 就 是 99% 的 美国 人 的 收入 都 小 于 它 的 那个 数 。 这 样 就 非常 好 理解 了 。 


i 在 数据 集中 ， 第 x 个 百 分 位 数 是 x% 的 数据 值 都 小 于 它 的 那个 值 。 





下 图 就 是 收入 分 布 的 示例 。 








百 分 位 数 


第 99 个 
$506,553 








上 图 给 出 了 收入 分 布 数据 的 一 个 例子 。 例 如 ， 根 据 第 99 个 百 分 位 数 ， 可 以 知道 99% 的 美国 
人 年 收入 少 于 506 553 美元 ， 只 有 1% 的 美国 人 收入 大 于 这 个 值 。 反 过 来 说 ， 如 果 你 是 前 1%， 那 
么 你 的 年 收入 就 大 于 506 553 美元 , 祝贺 你 ! 但 如 果 你 的 收入 处 于 中 间 位 置 , 那么 第 50 个 百 分 位 
数 就 是 这 样 一 个 点 ， 即 一 半 美 国人 的 收入 小 于 这 个 值 , 另 一 半 美 国人 的 收入 大 于 这 个 值 , 这 也 就 



































是 中 位 数 的 定义 。 第 50 个 百 分 位 数 和 中 位 数 是 等 价 的 ， 在 数据 集中 是 42 327 美元。 所 以 ， 如 果 


























你 在 美国 每 年 赚 42 327 美元 ， 那 么 在 这 个 国家 里 ， 你 的 收入 就 是 中 位 数 。 


从 上 图 中 可 以 发 现 收入 分 布 的 问题 。 收 入 过 于 向 高 端 集中 , 这 是 这 个 国家 现在 非常 严重 的 一 
个 问题 。 我 们 发 现 了 这 个 问题 ， 但 它 不 是 本 书 要 讨论 的 内 容 。 以 上 就 是 百 分 位 数 的 简介 。 
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1. 四 分 位 数 
在 一 个 分 布 中 ， 常 用 的 百 分 位 数 又 称 四 分 位 数 。 我 们 使 用 正 态 分 布 来 更 好 地 理解 这 个 概念 。 
下 面 这 个 例子 展示 了 正 态 分 布 中 的 百 分 位 数 。 
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在 上 图 的 正 态 分 布 中 可 以 看 见 四 分 位 数 。 第 一 个 四 分 位 数 (Q1 ) 和 第 三 个 四 分 位 数 (Q3 ) 
之 间 包 含 的 点 正好 是 50% 的 数据 点 ， 所 以 中 位 数 左 侧 有 25% 的 数据 点 ， 右 侧 也 有 25% 的 数据 点 。 


本 例 中 的 中 位 数 恰好 与 均值 非常 接近 。 例 如 ， 四 分 位 距 (InterQuartile Range，IQR ) 就 是 分 
布 中 间 包 含 50% 数 据 的 那 块 面积 。 


图 中 最 上 面 的 部 分 是 一 个 箱 线 图 。 先 不 要 关注 矩形 边缘 以 外 的 部 分 , 那些 比较 令 人 迷惑 ,， 稍 
后 我 们 会 详细 解释 。 尽 管 图 中 标 有 第 一 四 分 位 数 ( Q1 ) 和 第 三 四 分 位 数 ( Q3 ), 但 它们 也 不 真正 
代表 25% 的 数据 ， 别 太 在 意 这 个 。 重 要 的 是 中 间 的 四 分 位 数 代表 25% 的 分 布 数据 。 

2. 在 Python 中 计算 百 分 位 数 

再 看 几 个 Python 中 百 分 位 数 的 例子 ， 以 便 更 好 地 理解 这 个 概念 。 如 果 你 想 跟着 我 练习 ， 请 





邮 


打开 Percentiles.ipynb 文 
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件 。 


先生 成 一 些 随 机 分 布 的 正 态 数 据 或 服从 正 态 分 布 的 随机 数据 ， 代 码 如 下 : 


smatplotlib inline 
import numpy as np 


import matplotlib 


.pyplot as plt 


vals = np.random.normal(0, 0.5, 10000) 


Blt.. hist(vals, S30 
plt.show!() 


这 个 例子 中 生成 的 数据 均值 为 0， 标准 差 为 0.5， 数 据点 数量 为 10 000 个 。 然 后 ,绘制 出 直 


方 图 。 


) 






































直方 图 非常 像 正 态 分 布 ， 但 因为 数据 是 随机 的 ， 所 以 在 -2 个 标准 差 附 近 有 几 个 离 群 点 。 数 
据 在 均值 附近 有 一 点 倾斜 ， 这 一 点 随机 变动 使 得 事情 更 加 有 趣 了 。 

NumpPy 提供 了 一 个 非常 方便 的 百 分 位 数 函 数 ， 可 以 计算 分 布 中 百 分 位 数 的 值 。 我 们 已 经 使 
用 np.random.normal 函数 创建 了 一 个 列表 vals， 调 用 np.percentile 函数 就 可 以 找 出 第 
50 个 百 分 位 数 的 值 ， 代 码 如 下 : 





np.percentilel(val 





s, 50) 


上 述 代 码 的 输出 如 下 : 


0.0053397035195310248 

















输出 结果 是 0.005， 





请 记 住 , 第 50 个 百 分 位 数 就 是 中 位 数 ， 这 份 数据 中 的 中 位 数 非常 接近 于 
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下 面 再 计算 第 90 个 百 分 位 数 ，90% 的 数据 都 小 于 这 个 值 。 使 用 以 下 代码 ， 可 以 非常 容易 地 
完成 这 个 操作 : 

np.percentile(vals, 90) 

上 述 代码 的 输出 如 下 : 

Out[4]: 0.64099069837340827 

数据 的 第 90 个 百 分 位 数 是 0.64， 数 据 中 90% 的 点 都 小 于 这 个 值 。 我 们 可 以 相信 ，10% 的 数 
据 大 于 0.64，90% 的 数据 小 于 0.65。 

再 计算 一 下 第 20 个 百 分 位 数 的 值 ， 数 据 中 20% 的 值 会 小 于 它 。 只 要 对 代码 稍 做 改动 : 

np.percentile(vals, 20) 

上 述 代码 的 输出 如 下 : 

Out[5]:-0.41810340026619164 

第 20 个 百 分 位 数 大 约 是 -0.4， 也 就 是 说 20% 的 数据 在 -0.4 的 左 侧 ， 反 之 ，80% 的 数据 在 -0.4 
的 右 侧 。 

如 果 你 想 找 出 数据 集中 的 断 点 , 那么 使 用 百 分 位 数 函数 可 以 很 容易 地 找到 它们 。 如 果 数 据 集 
表示 的 是 收入 分 布 ， 那 么 可 以 使 用 np.percentile (vals，99) 来 找 出 第 99 个 百 分 位 数 ， 这 样 
就 找 出 了 那些 收入 在 前 1% 的 人 ， 希望 你 是 其 中 的 一 个 。 

好 的 ， 现 在 就 开始 动手 练习 吧 。 我 希望 你 使 用 数据 进行 各 种 练习 ， 这 个 IPython Notebook 文 
件 就 是 供 你 练习 的 。 例 如 ,可 以 使 用 各 种 不 同 的 标准 差 ， 看 看 它 对 数据 的 形状 和 百 分 位 数 的 值 有 
什么 影响 ,也 可 以 先 使 用 比较 小 的 数据 集 ， 然 后 加 入 一 些 随机 变动 。 你 可 以 随意 试验 ,看 看 到 底 
能 写 出 什么 代码 ， 实 现 什么 功能 。 


















































2.7.2 和 挎 

接 下 来 讨论 矩 。 和 矩 听 上 去 是 个 很 高 深 的 数学 名 词 , 但 理解 它 并 不 需要 多 高 深 的 数学 知识 , 它 
比 听 起 来 要 简单 得 多 。 

搞 统计 学 和 数据 科学 的 人 经 常 使 用 一 些 听 起 来 很 高 深 的 名 词 来 故弄玄虚 , 但 实际 上 这 些 名 词 
很 好 理解 ， 矩 就 是 这 样 一 个 名 词 ， 本 书 中 还 有 很 多 这 样 的 名 词 。 

基本 上 , 矩 就 是 用 在 概率 密度 函数 中 描述 数据 分 布 形状 的 一 个 指标 参数 , 它 有 一 个 非常 棒 的 
数学 定义 : 









































4 =|_(x-o"f(x)dx( 值 c 附 近 的 n 阶 答 ) 
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如 果 你 精通 微 积 分 ， 那么 这 个 概念 非常 简单 。 我 们 先 对 一 个 差 值 的 n( 即 矩 的 值 ) 次 方 进行 
微分 ， 再 从 负 无 穷 到 正 无 穷 对 整个 函数 进行 积分 。 这 是 一 个 非常 简单 的 微 积 分 公式 。 


0 短 可 以 定义 为 描述 概率 密度 函数 形状 的 数量 指标 


具体 说 明 如 下 。 

















(1) 一 阶 矩 就 是 数据 的 均值 ， 非 常 简单 。 











(2) 二 阶 矩 是 方差 ， 数 据 的 二 阶 憩 和 方差 是 一 样 的 。 这 有 一 点 难以 理解 ， 需 要 数学 推导 。 但 
仔细 想 一 下 , 方差 是 基于 数据 与 均值 的 差 的 平方 计算 的 ， 所 以 从 数学 角度 来 说 , 方差 与 均值 是 相 
关 的 。 这 样 理解 起 来 就 不 那么 困难 了 ， 是 不 是 ? 



































(3) 三 阶 矩 和 四 阶 和 矩 就 更 复杂 了 ， 但 仍 是 能 够 理解 的 概念 。 三 阶 矩 是 偏 度 ， 它 用 来 描述 一 个 
分 布 的 倾斜 程度 。 














负 偏 正 偏 











口 从 上 面 两 张 图 可 以 看 出 ， 如 果 长 尾 在 左 侧 ， 数 据 就 是 负 偏 ， 如 果 长 尾 在 右 侧 ， 数 据 就 
正 偏 。 虚 线 展示 了 没有 偏 斜 的 正 态 分 布 的 形状 ， 虚 线 

就 造成 了 正 偏 。 这 就 是 偏 度 的 解释 。 偏 度 是 由 茶 
倾斜 程度 。 








目 
人 E 


局 向 左 侧 ， 就 造成 了 负 偏 ， 相 反 ， 
侧 的 长 尾 形 成 的 ， 它 表示 数据 分 布 的 






































(4) 四 阶 矩 是 峰 度 。 哇 ， 多 么 美妙 的 一 个 名 词 ! 它 表示 分 布 尾部 的 肥厚 程度 和 顶部 的 尖锐 程 
度 。 所 以 ， 这 也 是 一 个 表示 数据 分 布 形状 的 指标 。 下 面 是 一 个 例子 。 
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口 如 图 所 示 ， 更 高 的 顶部 具有 更 高 的 峰 度 值 。 最 高 的 曲线 比 最 低 的 曲线 的 峰 度 高 。 这 种 区 
别 比较 微妙 ， 但 确实 存在 。 它 主要 表示 数据 的 顶部 有 多 人 尖锐。 


再 全 部 复习 一 下 : 一 阶 矩 是 均值 ， 二 阶 矩 是 方差 , 三 阶 矩 是 偏 度 ， 四 阶 矩 是 峰 度 。 我 们 已 经 
知道 了 什么 是 均值 和 方差 。 偏 度 表 示 数 据 的 偏 余 程度， 即 数据 的 尾部 偏向 哪 一 侧 。 峰 度 表示 数据 
分 布 有 多 尖锐 ， 即 从 两 侧 向 中 间 被 挤 压 的 程度 。 

在 Python 中 计算 珑 

下 面 来 看 一 下 如 何在 Python 中 计算 这 些 矩 。 请 打开 Moments.ipynb 文件 ， 跟 我 一 起 练习 。 

还 是 先 创 建 一 个 服从 正 态 分 布 的 随机 数据 ， 均 值 为 0， 标 准 差 为 0.5， 数 据点 数量 为 10 000， 
然后 将 其 绘制 出 来 : 


import numpy as np 
import matplotlib.pyplot as plt 

































































vals = np.random.normal (0, 0.5, 10000) 


plt.hist(vals, 50) 
plt.show!() 


于 是 我 们 得 到 了 一 份 随机 生成 的 均值 为 0 的 服从 正 态 分 布 的 数据 。 
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下 面 计算 均值 和 方差 。 前 面 已 经 介绍 过 ，NumPy 中 的 mean 函数 和 var 函数 可 以 完成 这 个 
任务 。 所 以 ， 调 用 np .mean 来 计算 一 阶 和 矩 ， 也 就 是 均值 ， 代 码 如 下 : 

np.mean (vals) 

上 述 代码 的 输出 如 下 : 

Out [2]:-0.0012769999428169742 

结果 与 0 非常 接近 ， 正 如 我 们 所 料 ， 因 为 生成 数据 的 正 态 分 布 均值 就 是 0， 所 以 均值 就 应 该 
是 这 样 的 o 

下 面 计算 二 阶 和 矩 ， 也 就 是 方差 。 和 前 面 一 样 ， 代 码 如 下 : 

np.var (vals) 

上 述 代码 的 输出 如 下 : 

Out[3]:0.25221246428323563 

结果 大 约 是 0.25， 也 在 我 们 的 意料 之 中 。 标 准 差 是 方差 的 平方 根 。 算 一 下 0.25 的 平方 根 ， 
就 是 0.5， 正 是 在 生成 数据 时 设 定 的 标准 差 。 

三 阶 和 矩 是 偏 度 ， 要 计算 这 个 指标 需要 使 用 SciPy 包 ， 而 不 是 NumPy。 在 很 多 科学 计算 包 中 ， 都 
有 这 个 扩展 包 ， 比 如 Enthought Canopy 或 Anaconda。 如 果 你 导入 了 SciPy， 那 么 函数 调用 非常 简单 : 


import scipy.stats as sp 
sp.skew (vals) 


上 述 代 码 的 输出 如 下 : 


Out[4]: 0.020055795996111746 


对 vals 列表 调用 函数 sp . skew， 就 可 以 求 出 峰 度 值 。 因 为 这 个 值 非常 接近 于 0， 所 以 数据 
应 该 是 0 偏 的 。 如 有 果 加 入 一 些 随 机 变动 ， 数 据 会 变 得 略微 左 偏 。 实 际 上 ， 在 图 中 的 表现 就 是 形状 
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有 些 抖动 ， 就 像 是 向 负 方 向 拉扯 了 一 下 。 


四 阶 矩 是 峰 度 ， 描 述 了 数据 尾部 的 形状 。 对 于 正 态 分 布 ， 峰 度 也 大 约 是 0。SciPy 还 提供 了 
男 一 个 简单 的 函数 : 


sp.kurtosis(vals) 


上 述 代码 的 输出 如 下 : 


Out [5]:0.059954502386585506 


实际 结果 也 确实 接近 于 0。 峰 度 揭示 了 数据 分 布 互相 联系 的 两 个 特征 : 尾部 的 形状 以 及 顶部 
的 尖锐 程度 。 如 果 将 分 布 的 尾部 压 得 更 扁 ， 就 会 使 得 项 部 更 加 尖锐 。 同 样 ， 如 果 将 分 布 的 项 部 压 
下 去 一 些 ， 就 会 使 尾部 更 加 肥大 ， 顶 部 更 加 平坦 。 这 就 是 峰 度 的 作用 。 在 这 个 例子 中 ， 峰 度 接 近 
于 0， 因为 数据 服从 正 态 分 布 。 


如 果 你 想 多 做 一 些 试验 ， 就 去 做 吧 。 试 着 修改 一 下 数据 分 布 ， 让 它 的 均值 不 为 0， 看 看 会 发 
生 什么 变化 。 有 变化 吗 ? 确实 没有 。 因 为 这 些 指标 是 描述 分 布 的 形状 的 ,与 分 布 的 位 置 其 实 没 有 
多 大 关系 。 它 们 是 形状 参数 ,这 就 是 矩 的 意义 。 实 际 动 手 操 作 一 下 ，, 试 试 不 同 的 中 心 值 或 不 同 的 
标准 差 . 看 看 它们 对 这 些 数值 有 什么 影响 。 实 际 上 偏 度 和 峰 度 不 会 改变 。 当 然 ,， 均值 会 改变 ， 
为 你 改变 了 均值 的 值 ， 但 是 方差 和 偏 度 可 不 会 发 生变 化 。 试 试 吧 ， 看 看 是 不 是 这 样 。 


以 上 就 是 对 百 分 位 数 和 和 矩 的 介绍 。 百 分 位 数 非常 简单 ， 矩 听 起 来 有 点 难 , 但 实际 上 也 很 好 理 
解 ， 在 Python 中 也 很 容易 计算 。 如 果 你 都 懂 了 ， 那 我 们 继续 。 























































































































2.8 小 结 


本 章 介 绍 了 几 种 常见 的 数据 类 型 (数值 型 数据 、 分 类 数据 和 定 序数 据 )， 以 及 如 何 确定 数据 
类 型 并 根据 不 同 数据 类 型 进行 不 同 的 处 理 。 还 简单 介绍 了 均值 .中 位 数 和 众 数 这 几 个 统计 学 概念 ， 
并 说 明了 在 中 位 数 和 均值 之 间 进 行 选择 的 重要 性 。 通 常 ， 由 于 离 群 点 的 存在 ,中 位 数 是 比 均值 更 
好 的 选择 。 


接 下 来 分 析 了 在 IPython Notebook 文件 中 如 何 使 用 Python 计算 均值 、 中 位 数 和 众 数 。 本 章 深 
入 学 习 了 标准 差 和 方差 的 概念 以 及 在 Python 中 的 计算 方法 ,它们 是 测量 数据 分 布 的 分 散 程度 的 
指标 。 本 章 还 介绍 了 使 用 概率 密度 函数 和 概率 质量 函数 来 表示 和 测量 一 个 给 定 范围 的 值 在 数据 集 
中 出 现 的 实际 概率 的 方法 。 


本 章 简 单 介 绍 了 儿 种 类 型 的 数据 分 布 ( 均匀 分 布 、 正 态 分 布 或 高 斯 分 布 、 指 数 概率 分 布 、 二 
项 式 概率 质量 函数 、 泊 松 概 率 质 量 函 数 )， 以 及 在 Python 中 对 其 进行 可 视 化 的 方法 。 此 外 还 分 析 
了 百 分 位 数 和 矩 的 概念 ， 并 介绍 了 使 用 Python 计算 它们 的 值 的 方法 。 


下 一 章 将 更 加 详细 地 介绍 matplot1ib 库 ， 还 会 讨论 协 方差 和 相关 性 这 些 更 加 高 级 的 话题 。 
























































Matplotlib 与 概率 高 级 概念 











在 上 一 章 中 , 我 们 学 习 了 一 些 统计 和 概率 中 的 简单 概念 , 本 章 将 重点 介绍 本 书 中 你 需要 熟悉 
的 一 些 高 级 主题 。 别 担心 , 它们 并 不 是 太 复 杂 。 首先 , 我 们 来 点 有 意思 的 , 介绍 一 下 matplot1ib 
库 的 强大 绘图 功能 。 

本 章 将 介绍 以 下 内 容 : 
口 使 用 matplotlib 包 绘 制 网 形 ; 
口 了 解 协 方差 和 相关 系数 ， 确 定数 据 之 间 的 关系 ; 
口 通过 实例 了 解 条 件 概率 ; 
口 了 解 贝 叶 斯 定理 及 其 重要 性 。 
























































3.1 ”Matplotlib 快速 学 习 


你 的 数据 只 有 能 为 他 人 所 用 才 有 意义 。 所 以 , 本 节 要 讨论 一 下 将 数据 绘制 成 图 形 的 方法 ， 以 
及 如 何 将 数据 呈现 给 他 人 ， 并 使 你 的 图 形 尽 量 美观 。 我 们 将 更 加 详细 地 介绍 Matplotlib ， 并 说 明 
它 的 作用 。 


本 节 会 展示 几 种 使 图 形 更 加 美观 的 技巧 , 以 使 你 更 好 地 使 用 图 形 。 在 工作 中 使 用 美观 的 图 形 
是 非常 好 的 一 种 方式 。 图形 是 一 种 可 视 化 方式 , 你 可 以 使 用 各 种 图 形 对 不 同类 型 的 数据 进行 可 视 
化 。 我 们 可 以 使 用 不 同 的 颜色 、 线 型 、 坐 标 轴 ， 等 等 。 图 形 和 数据 可 视 化 不 仅 可 以 在 数据 中 发 现 
有 趣 模式 ， 还 是 将 你 的 成 果 展 示 给 非 技术 人 员 的 一 种 重要 方法 。 闲 话 少 说 ， 下 面 开始 学 习 
Matplotlib 。 


打开 MatPlotLib.ipynb 文件 ， 我 们 可 以 一 起 练习 。 先 从 一 个 非常 简单 的 图 形 开 始 。 


smatplotlib inline 















































from scipy.stats import norm 
import matplotlib.pyplot as plt 
import numpy as np 
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x = np.arange(-3, 3, 0.001) 


plt.plot(x; norm.pdf (x)) 

plt.show!() 

这 个 例子 中 将 Matplotlib.pyplot 导入 为 plt， 此 后 就 可 以 使 用 plt 来 代替 这 个 包 了 。 
然后 使 用 np.arange(-3，3，0.001) 生 成 x 轴 上 的 值 ， 范 围 从 -3 到 3， 增 量 为 0.001， 并 使 用 
pyplot 包 中 的 plot () 函数 绘制 出 x, y 轴 上 的 值 为 norm.paf (x)。 所 以 ,我们 基于 x 的 值 创 
建 了 一 个 正 态 分 布 的 概率 密度 函数 ， 这 个 操作 要 用 到 scipy .stats norm 包 。 


回忆 一 下 上 一 章 中 的 概率 密度 函数 ， 现 在 我 们 要 使 用 matplotlib 绘制 出 正 态 分 布 的 概率 
密度 函数 。 调 用 pyplot 包 的 blot () 函数 可 以 创建 图 形 ， 然 后 使 用 plt .show() 可 以 显示 出 图 
形 。 运 行 上 面 的 代码 ， 就 可 以 得 到 以 下 结果 。 
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这 就 是 使 用 默认 设置 得 到 的 一 张 既 简单 又 美观 的 图 形 。 





3.1.1 在 一 张 图 形 上 进行 多 次 绘图 


如 果 想 同时 绘制 多 个 图 形 ， 那 么 可 以 先 多 次 调用 plot 函数 ， 然 后 再 调用 show 也 数 ， 这 样 
就 可 以 在 图 中 添加 多 个 图 形 了 。 来 看 下 面 的 代码 : 
plt.plot (x, norm.pdf (x)) 


Slt plotlr, Torm poate tr 0 
plt.show!() 


这 个 例子 中 调用 了 初始 的 整体 分 布 函数 ， 但 我 们 还 想 添 加 男 外 一 个 正 态 分 布 ， 它 的 均值 是 
1.0， 标准 差 是 0.5。 然 后 ， 将 它们 同时 显示 出 来 ， 以 便 进行 彼此 之 间 的 比较 。 
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可 以 看 到 , 在 默认 情况 下 , matplot1lib 可 以 自动 为 每 种 图 形 选择 不 同 的 颜色 , 这 非常 方便 。 


3.1.2 ”将 图 形 保存 为 文件 
如 果 想 把 图 形 保存 为 文件 ， 以 便 在 文档 中 使 用 ， 那 么 可 以 使 用 如 下 代码 : 


plt .plot (x, norm.pdf (x)) 
Blt .LlOt (Ry: MOrm. Ba (XL A005 
plt.savefig('C:\\Users\\Frank\\MyPlot.png', format='png') 


这 时 不 调用 plt .show () ， 而 是 使 用 plt .savefig () 函数 ， 还 要 指定 保存 文件 的 路 径 和 文 
件 类 型 。 


在 使 用 这 段 代码 时 ， 因 为 你 的 计算 机 上 可 能 没有 Users\Frank 这 个 文件 来 ， 所 以 需要 将 路 径 
修改 为 计算 机 上 的 实际 路 径 。 还 要 注意 的 是 ， 如 果 你 使 用 的 是 Linux 或 macOS 操作 系统 ， 那 么 
就 不 应 该 使 用 反 斜 杠 , 而 应 该 使 用 正和 斜 杠 , 而 且 不 需要 驱动 器 盘 符 。 在 本 书 所 有 Python Notebook 
中 ， 只 要 见 到 这 样 的 路 径 ， 就 要 将 其 修改 为 符合 你 的 操作 系统 格式 的 实际 路 径 。 我 使 用 的 是 
Windows, 计算 机 上 也 确实 有 Users\Frank 这 个 文件 夹 , 所 以 我 可 以 运行 上 面 的 代码 。 如 果 检 查 一 
下 Users\Frank 文件 夹 下 面 的 文件 ， 就 会 看 到 MyPlot.png 文件 ， 可 以 打开 它 ， 或 者 在 任意 文档 中 
使 用 它 。 
































€ -个 » ThisPC » LocalDisk(C:) » Users » Frank 
最 Downioads 二 ^ Name Date modified 
本 Picdures 了 图 Myplotpng 1/13/2016 11:35 AM 
Camtasia Studio | ] .enstaller4rc 1/13/2016938 AM 
DataScience 国 WordFrequencySorted.py 1/11/2016 1:11 PM 




















棒 极 了 。 根 据 你 的 设置 ， 另 一 个 需要 注意 的 问题 是 ， 在 你 保存 文件 时 可 能 会 遇 到 权限 问题 。 
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你 需要 将 文件 保存 在 有 权限 的 目录 中 。 在 Windows 中 , 你 的 Users\Name 文件 夹 一 般 是 没 问 题 的 。 
好 了 ， 我 们 继续 。 


3.1.3 


调整 坐标 轴 
你 或 许 不 喜欢 上 个 图 中 的 坐标 轴 设 置 。 这 是 




















默认 设置 ， 它 自动 适合 坐标 轴 上 所 取 的 最 大 值 。 





这 种 设置 在 大 多 数 情况 下 是 很 好 的 , 但 有 些 时 候 ， 你 会 希望 精确 地 控制 坐标 轴 上 的 坐标 。 来 看 下 





面 的 代码 : 


axes 
axes 
Aaxes. 
QXeS . 
axes 


.Set_Xxlim([-5， 


.Set_yticks([0, 





= plt.axes() 


set_ ylim([0, 
set_xticks([- 


Bib nlot tr Dorm, pdaf 
plt.plot (x, norm.pdf 
plt.show!() 


在 这 个 例子 中 , 我 们 首先 使 用 plt .axes 获取 坐标 轴 。 获 取 了 坐标 轴 对 象 之 后 , 就 可 以 对 其 
进行 调整 了 。 调 用 set_xlim， 将 x 轴 的 范围 设 定 为 从 -5 到 5， 调 用 set_ylim， 将 ? 轴 的 范围 
设 定 为 从 0 到 1。 在 下 面 的 输出 结果 中 你 可 以 看 到 , x 轴 的 取 值 范围 变 成 了 -5 到 5, y 轴 的 取 值 范 
围 变 成 了 0 到 1。 还 可 以 精确 地 控制 坐标 轴 上 的 刻度 , 在 上 面 的 代码 中 , 我 们 使 用 set_xticks () 
和 set_yticks () 函数 将 x 轴 的 刻度 设 定 为 -5、-4、-3 等 ,将 y 轴 的 刻度 设 定 为 从 0 到 1， 增 量 
为 0.1。 尽管 可 以 使 用 arange 函数 来 更 加 简便 地 设 定 坐标 轴 刻 度 ， 但 这 么 做 的 意义 是 你 可 以 精 
确 地 控制 使 用 哪些 坐标 轴 刻 度 , 甚至 可 以 跳 过 一 些 刻度 , 还 可 以 控制 刻度 的 间隔 或 者 刻度 的 分 布 。 
除 此 之 外 ， 两 种 方法 的 作用 是 一 样 的 。 


调整 好 坐标 轴 之 后 ,可 以 调用 plot () 函数 进行 绘图 ， 并 调用 show () 函数 将 图 形 显示 出 来 。 
结果 如 下 。 


x 


0 . 
{ 
( 


XxX, 
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3.1.4 添加 网 格 
怎样 在 图 中 添加 网 格 线 呢 ? 同样 ， 先 使 用 pit .axes ( 


() 获 取 坐 标 轴 对 象 ， 然 后 对 axes 调用 


grid() 


axes 


axes. 
axes. 
axes. 
Aaxes. 
axes. 


) 函数 即 可 。 


= plt.axes() 

set x1lim([=~=5;. 下 ) 
set_ylim([0, ) 

set_xticks([-5, -4, -3, -2, -1, 0, 1, 2, 3, 4, 
set_yticks([0, 0.1 4 

grid() 


norm.pdf (x)) 
norimapat (Xs. L305 Ok 


lt BLor Ty, 
Blt .BIGB(X; 
plt.show!() 


运行 上 面 的 代码 就 可 以 添加 美观 的 网 格 线 ， 


5)) 








尽管 它 使 图 形变 得 有 些 


杂乱 , 但 可 以 使 我 们 更 容 


易 查看 特定 的 点 。 你 可 以 按照 自己 的 意愿 决定 是 否 添加 网 格 线 。 








10 
09 
08 
07 
06 
05 
04 
03 











3.1.5 ”修改 线 型 和 颜色 
如 果 想 改变 线 型 和 颜色 ， 那 么 可 以 使 用 以 下 代码 。 


axes = plt.axes!( 
set_xlim([- 
set_ylim([0, ) 
Set Xticks( [=.= 
set_ yticks([0, 0.1 
axes .grid() 
ts 
lit Blo 
plt.show!() 


在 上 面 的 代码 中 ，plot ( 





) 
axes. Da el) 
axes. 
axes. 


axes. 


norm.pdf (x), 'b-') 
norm Ba La:i0 


函数 使 用 了 另外 一 个 参数 ， 


3 
4，5]) 

0.7, 0.8, 0.9, 1.0]) 
这 个 参数 是 一 个 短 字 符 串 ， 用 来 描述 
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线 型 。 在 第 一 个 plot () 函数 中 ，p- 表 示 使 用 一 条 蓝 色 实 线 ，b 表示 蓝 色 ， 短 划 线 表示 实 线 。 在 
第 二 个 plot () 函数 中 ，r 表示 红色 ， 冒 号 表示 虚线 ， 所 以 是 一 条 红色 虚线 。 























你 还 可 以 试 试 各 种 不 同 的 线 型 ， 比 如 使 用 双 短 划 线 ( -- )。 





axes = Dlt.axes() 
axes.set_xlim([-5, 5]) 
axes.set_ylim([0, 1.0]) 
axes.set_ xticks([-5, -4, -3, -2, -1, 0, 1, 2, 3, 4, 5]) 
axes Set ytickst[0, Ql 0.2; O03 Cd O05: 67> OT 5 本 > .0]) 
axes.grid() 
plt.plot (x, norm.pdf (x), 'b-') 
plt.plot (x, norm.pdf (x, 1.0, 0.5), 'r--') 
plt.show!() 
上 述 代码 会 绘制 出 一 条 由 短 划 线 组 成 的 红色 虚线 ， 如 下 图 所 示 。 
10 
0.9 
08 
07 
06 
0.5 
04 
03 
02 
0.1 
00 E 
-5 -4 -3 一 2 一 1 0 1 2 3 4 5 
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还 可 以 使 用 短 划 线 和 点 的 组 合 ( -. )。 


plt.axes () 
set_xlim([-5, 5 
set_ ylim([0, 1. 
set_xticks([-5 

axes.set_yticks([0, 
axes .grid() 
plt.plot (x, 
plt.plot (x, 
plt.show!() 


生成 的 图 形 如 下 。 


axes = 
axes. ]) 
axes. 0]) 


axes. 


’ 


norm.pdf (x), 'b-') 
norm.pdf (x, 1.0 








10 
0.9 
08 
07 
06 
05 
04 
03 
02 
01 
00 

















所 以 ， 我 们 有 多 种 不 同 的 选择 ， 甚 至 可 以 使 用 绿色 竖 斜 线 。 


axes = plt.axes() 


axes. 
axes. 
axes. 
axes. 


axes 


set_xlim([-5, 
set_ ylim([0, 
set_xticks (I 


1 
河 


Set_yticks( [0， 


.grid() 
上 
plt.plot (x, 


plt.show!() 


norm.pdf (x), 
norm.pdf (x, 1. 


9] 
.0]) 
ee 
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结果 如 下 。 

















你 可 以 尽情 试验 各 种 不 同 的 值 ， 看 看 各 种 不 同 的 线 型 。 


3.1.6 ”标记 坐标 轴 并 添加 图 例 


你 需要 标记 坐标 轴 , 并 坚决 不 要 呈现 空白 数据 ， 
标 轴 ， 可 以 使 用 plt 的 xlabel () 和 ylabel () 函数 在 坐标 轴 上 添加 标签 。 








定 要 告诉 人 们 数据 代表 了 什么 。 要 标记 坐 


我 们 将 x 轴 标 记 为 


Greebles, 将 y 轴 标记 为 Probability。 你 还 可 以 添加 图 例 , 通常 ， 图 例 也 是 为 了 说 明 数 据 ,， 但 它 的 


作用 更 加 明显 。 在 下 面 的 代码 中 ， 我 们 也 添加 了 一 个 图 例 : 


axes = plt.axes!() 
set_xlim([-5, 5 
set_ylim([0, 
set_xticks([ 
axes.set_yticks([ 
axes .grid() 
plt.xlabell(' 
plt.ylabell(' 





axes. 
axes. 


] ) 
0 
axes. = es Sl Ls 
O03. Osl; Qu Qe Oudy OS 0,6 
Greebles') 
Probability') 
Blt .Plott{txw ‘nommBar tw a 
blt ,plot tr Torm pditRr LQ CO 
plt.legend(['Sneetches', ' 
plt.show!() 





图 例 中 的 主要 内 容 是 每 种 图 形 的 形状 以 及 相应 的 名 称 。 图 中 第 一 条 曲线 的 名 称 为 Sneetches， 
第 二 条 曲线 的 名 称 为 Gacks，1oc 参数 表示 图 例 的 位 置 ，4 表示 右 下 角 。 运 行 上 面 的 代码 ， 可 以 








得 到 如 下 结果 。 


3.1 Matplotlib 快速 学 习 69 








[md 
已 


ty 
局 口 口 口 
ho 中 ww 


Probabili 


SS © oo oo Do 
OP NW pua 





4 — Sneetches 





Greebles 


























这 样 ， 我 们 就 为 Sneetches 和 Gacks 绘制 出 了 Greebles 和 Probability 的 关系 图 ， 并 请 苏 斯 博 
土 做 了 图 例 说 明 。" 这 就 是 标记 坐标 轴 和 图 例 的 方法 。 

















3.1.7 一 个 有 趣 的 例子 


下 面 来 看 一 个 有 趣 的 例子 。 如 果 你 知道 一 个 名 为 XKCD 的 网 络 漫画 , 那么 使 用 Matplotlib 也 
能 绘制 出 XKCD 风格 的 图 形 , 这 是 Matplotlib 中 的 一 个 复活 节 彩 蛋 。 下 面 的 代码 可 以 告诉 你 如 何 
绘制 出 这 种 图 形 。 


plt.xkcd() 








fig = plt.figure!() 
ax = fig.adqd_ subplot(1, 1, 1) 
ax.spines['right'] .set_color('none') 


ax.spines['top'] .set_color('none') 
Dlt. xtieks CE] 
Bit ytiokest [ly 





ax.set_ylim([-30, 10]) 


data = np.ones(100) 
data[70:] -= np.arange(30) 





plt.annotatel( 
'THE DAY I REALIZED\NI COULD COOK BACON\NWHENEVER I WANTED', 
xy=(70, 1), arrowprops=dict (arrowstyle='->'), xytext=(15, -10)) 


plt.plot (data) 


plt.xlabel ('time') 
plt.ylabel('my overall health') 




















Qa 苏 斯 博士 是 美国 著名 儿童 作家 ，Sneetches 和 Gacks 都 是 他 的 作品 中 的 角色 。 一 一 译 者 注 





mr 
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这 个 例子 中 首先 调用 plt .xkca ( 
字体 就 自动 变 成 了 漫画 字体 ， 直线 也 变 
间 的 一 种 非常 有 趣 的 关系 ， 
转 直 下 。 我 们 只 需 





即 一 旦 你 意识 到 上 自 








更 用 xkca () 方 法 设置 Matplotlib 的 状态 ， 


， 将 Matplotlib 设置 为 XKCD 模式 。 在 此 之 后 ,图 形 中 的 
5 得 训 曙 时 的 。 这 个 简单 的 例子 展示 了 你 的 健康 和 时 间 之 


己 可 以 随时 随地 毫 调 腊肉 , 那 你 的 健康 情况 就 会 急 
就 可 以 得 到 下 面 的 结果 。 








my overall health 





THE DAY I REALIZED 
I COULD COOK BACON 
WHENEVER I WANTED 


> 


time 











生成 这 张 图 形 的 Python 代码 非常 有 意思。 首先 ， 我们 生成 共有 100 个 数据 点 ， 每 个 点 的 值 





都 是 1 的 一 组 数据 线 。 然后, 使 用 Python 切片 


函数 获得 后 30 个 数据 点 , 并 用 这 30 个 数据 点 减 去 





一 个 数组 ， 数 组 的 值 从 0 到 30。 这 样 做 的 效果 就 是 ， 从 第 70 个 点 之 后 ， 每 个 点 的 值 都 线性 地 减 


少 。 


绘制 成 图 形 后 





性 应 用 。 


3.1.8 生成 饼 图 
现在 ,我 们 回 到 现实 世界 ， 
如 果 想 生成 饼 图 ， 





， 水 平 直线 从 第 70 个 点 之 后 ， 
这 个 例子 还 可 以 练习 Python 的 列表 切片 操作 ， 也 是 使 用 arange 


调用 rcdefaults( 


只 需 调用 plt .pie 函数 ， 并 且 设 定好 数值 、 颜 色 、 标 记 这 





就 会 一 直 向 下 。 
函数 修改 数据 的 一 个 创造 


函数 ， 可 以 使 Matplotlib 回 到 正常 状态 


这 些 参数 数组 ， 





以 及 是 否 凸 出 显示 和 凸 出 的 程度 。 下 面 是 示例 代码 : 


# 取消 XKCD 模式 : 
plt.rcdefaults() 


Malues, se: [2 59 43. BZ 本] 

SOLGES ST BT “ey, “9 
explOde.s [0 0, O027 Gr 0] 

labels = ['India', 'United States', 
plt.pie(values, colors= colors, 
plt.title('Student Locations') 
plt.show!() 





这 个 例子 中 使 用 数值 12、55、 


'Russia', 
labels=labels, 


'China', 'Europe'] 
explode = explode) 


4、32 和 14 创建 了 一 张 饼 图 。 我 们 明确 地 为 这 些 数 值 对 应 


的 部 分 指定 了 颜色 和 标记 。 对 于 Russia, 用 凸 出 程度 为 20% 的 部 分 进行 表示 。 图 形 的 标题 为 Student 
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Locations。 输 出 的 图 形 如 下 。 




















这 就 是 饼 图 的 生成 方法 。 


~ 


.9 生成 条 形 图 
条 形 图 的 生成 方法 也 非常 简单 ， 和 生成 饼 图 的 思路 基本 一 样 。 来 看 下 面 的 代码 : 


3. 


Vales SS [LT2,. ,55 “dr 325.0 14] 

Colors 三 人 i ho cp “ie.] 
plt.bar(range(0,5), values, color= colors) 
plt.show!() 








我 们 首先 定义 一 个 数值 数组 和 一 个 颜色 数组 , 然后 绘制 数据 。 上 面 代 码 绘制 的 图 形 范围 是 从 
0 到 5,y 值 来 自 于 values 数组 , 并 使 用 colors 数组 中 的 值 来 明确 指定 颜色 。 运行 上 面 的 代码 ， 
就 可 以 显示 出 下 面 的 条 形 图 。 








50 
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3.1.10 ”生成 散 点 图 


本 书 中 会 经 常 使 用 散 点 图 。 对 于 同一 组 人 或 物 ， 如 果 有 很 多 不 同属 性 需要 绘制 出 来 ,就 可 以 
使 用 散 点 图 。 例 如 ， 如 果 想 绘制 出 每 个 人 的 年 龄 与 收入 的 关系 ,可 以 使 用 散 点 图 来 表示 , 图 中 的 
每 个 点 表示 每 个 人 ， 坐 标 轴 表示 人 的 不 同属 性 。 

















绘制 散 点 图 的 方法 是 使 用 plt .scatter () 函数 ， 两 个 坐标 轴 分 别 定义 为 你 要 绘制 出 彼此 关 
系 的 两 个 属性 。 


假设 Xx 和 Y 都 是 随机 分 布 的 值 ， 我 们 可 以 使 用 散 点 图 将 它们 绘制 出 来 ， 代 码 如 下 : 


from pylab import rangn 





randn(500) 
randn(500) 
lt.scatter (X,Y) 
plt.show!() 


生成 的 散 点 图 如 下 。 


x 
时 
p 


4 





























看 上 去 很 棒 吧 。 从 图 中 可 以 看 出 ,数据 有 向 中 心 集中 的 趋势 ， 因 为 两 个 坐标 轴 上 使 用 的 都 是 
正 态 分 布 。 由 于 数据 是 随机 的 ， 因 此 x 和 Y 之 间 没 有 相关 性 。 

















3.1.11 生成 直方 图 
下 面 回 忆 一 下 如 何 生成 直方 图 。 在 本 书 中 ， 直 方 图 已 经 出 现 多 次 了 。 来 看 下 面 的 代码 : 


incomes = np.random.normal (27000, 15000,10000) 


plt.hist(incomes, 50) 
plt.show!() 


这 个 例子 中 首先 使 用 一 个 均值 为 27000、 标 准 差 为 15 000 的 正 态 分 布 生 成 10 000 个 数据 点 。 
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然后 ， 调 用 pyplot 的 直方 图 函数 hist ()， 并 指定 了 在 直方 图 中 数据 分 组 的 数量 。 最 后 ， 调 用 
show () 也 数 显 示 出 图 形 。 

















800 


700 














-oo —40000 -20000 0 





3.1.12 生成 箱 线 图 
最 后 看 一 下 箱 线 图 。 回 忆 一 下 ， 在 前 面 讲 到 百 分 位 数 的 时 候 ， 我 们 曾 简单 提 到 过 箱 线 图 。 


在 箱 线 图 中 ,箱子 表示 第 一 四 分 位 数 和 第 三 四 分 位 数 之 间 的 数据 ，50% 的 数据 都 落 在 这 个 范 
围 内 。 相 反 ,在 箱子 的 两 侧 , 各 有 25% 的 数据 ， 两 条 须 ( 例 图 中 的 虚线 ) 表示 除 离 群 点 之 外 的 数 
据 范 围 。 


在 箱 线 图 中 ， 离 群 点 是 指 那些 在 1.5 倍 四 分 位 距 ( 即 箱子 的 宽度 ) 之 外 的 点 。 将 箱子 的 宽度 
乘 以 1.5， 就 是 用 虚线 表示 的 须 的 两 端 最 大 延伸 范围 ， 我 们 称 其 为 外 四 分 位 数 。 任 何 位 于 外 四 分 
位 数 之 外 的 点 都 被 认为 是 离 群 点 ， 即 那些 外 四 分 位 数 之 外 的 线 表示 的 点 。 基 于 箱 线 图 的 定义 ,可 
以 定义 离 群 点 。 


关于 箱 线 图 ， 应 该 记 住 以 下 几 点 : 


口 它 可 以 用 来 对 数据 的 分 散 度 和 偏 度 进行 可 视 化 ; 

口 箱子 中 间 的 线 表 示 数 据 的 中 位 数 ， 箱 子 表示 第 一 四 分 位 数 和 第 三 四 分 位 数 之 间 的 范围 ; 
口 一 半 的 数据 位 于 箱 体 内 ; 

口 “ 须 ”表示 除 离 群 点 之 外 的 数据 范围 ， 离 群 点 被 绘制 在 须 的 外 部 ; 

口 离 群 点 是 那些 大 于 1.5 倍 四 分 位 距 的 值 。 




































































下 面 通过 一 个 虚构 的 数据 集 , 给 出 一 个 箱 线 图 的 例子 。 这 个 例子 先 创建 一 份 在 -40 和 60 之 间 
人 色 分 布 的 随机 数据 ， 然 后 添加 几 个 大 于 100 和 小 于 -100 的 离 群 点 : 
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uniformSkewed = np.random.rand(100) * 100 - 40 

high outliers = np.random.rand(10) * 50 + 100 

low_outliers = np.random.rand(10) * -50 - 100 

data = np.concatenate( (uniformSkewed, high outliers, low_outliers)) 
plt.boxplot (data) 

plt.show!() 


上 面 代码 首先 生成 了 一 份 服从 均匀 分 布 的 数据 ( uniformskewed )。 然 后 在 数据 高 端 添 加 了 
几 个 离 群 点 (high_outliers )， 在 数据 低 端 也 添加 了 几 个 负 的 离 群 点 (low_outliers )。 接 
下 来 , 使 用 NumPy 将 这 几 个 列表 连接 在 一 起 , 形成 一 个 完整 的 数据 集 。 最 后 , 使 用 plt .poxplot () 
绘制 出 这 个 组 合 数据 集 ， 并 调用 show ( ) 函数 显示 出 图 形 。 
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中 的 箱子 表示 50% 的 数据 落 入 其 中 ， 上 下 两 端的 小 十 字 ( 你 的 图 中 可 能 是 小 圆圈 ) 表示 离 
群 点 。 


3.1.13 ”自己 动手 
好 的 ， 以 上 就 是 Matplotlib 的 快速 教程 。 现 在 该 你 亲自 动手 做 些 实际 练习 了 。 


作为 练习 , 我 希望 你 创建 一 张 散 点 图 , 表示 出 你 虚构 出 来 的 年 龄 数据 和 看 电视 时 间 数 据 之 间 
的 关系 。 你 也 可 以 创建 其 他 类 型 的 图 。 如 果 你 有 不 同 的 数据 , 那么 也 完全 可 以 使 用 。 创 建 一 张 散 
点 图 ， 表示 出 两 种 随机 数据 之 间 的 关系 ,并 标记 坐标 轴 , 使 图 形 尽 量 美 观 。 你 需要 的 所 有 参考 和 
示例 都 包括 在 本 章 的 IPython Notebook 中 ， 它 就 像 一 份 快速 指南 。 对 于 不 同 的 数据 ， 你 应 该 使 用 
不 同类 型 和 不 同 风格 的 图 形 。 我 希望 上 面 的 内 容 对 你 有 用 。 下 面 ， 我 们 回 到 对 统计 学 的 复习 。 



































3.2” 协 方差 与 相关 系数 
下 面 讨论 协 方差 与 相关 系数 。 假 设 我 们 有 两 个 不 同 的 属性 , 如 果 你 想 知道 它们 彼此 之 间 是 否 
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相关 ， 那 么 本 节 可 以 提供 判断 两 个 属性 是 否 相 关 的 数学 工具 ， 并 给 出 一 些 实例 ， 介 绍 如 何 使 用 
Python 来 计算 协 方差 和 相关 系数 。 协 方差 和 相关 系数 就 是 用 来 测量 数据 中 不 同属 性 是 否 相 关 的 方 
法 ， 它 们 非常 重要 。 

















3.2.1 概念 定义 


假设 我 们 有 一 张 散 点 图 ， 图 中 每 个 数据 点 都 代表 一 个 人 ,x 坐标 轴 表 示 他 的 年 龄 ，y 坐标 轴 
表示 他 的 收入 。 数 据 都 是 虚构 的 。 





























如 果 散 点 图 如 左 图 所 示 , 那么 你 可 以 看 到 ,数据 分 布 在 图 中 各 处 , 说 明 在 这 份 数 据 中 年 龄 和 
收入 之 间 没 有 什么 真正 的 关系 。 给 定 任何 一 个 年 龄 , 收入 的 变化 范围 都 非常 大 。 尽 管 数据 有 集中 
到 中 心 的 趋势 ,但 我 们 找 不 到 二 者 之 间 非 常 明确 的 关系 。 相 反 ， 在 右 侧 的 散 点 图 中 ,你 可 以 看 至 
年 龄 和 收入 之 间 存 在 着 明确 的 线性 关系 。 

所 以 , 协 方 差 和 相关 系数 为 我 们 提供 了 一 种 衡量 事物 之 间 联 系 紧密 程度 的 手段 。 在 左 侧 的 散 
点 图 中 , 数据 的 相关 系数 和 协 方差 都 非常 小 ， 而 在 右 侧 的 散 点 图 中 ,数据 的 相关 系数 和 协 方差 都 
非常 大 。 这 就 是 协 方差 和 相关 系数 的 概念 ， 它 表示 测量 的 两 个 属性 之 间 彼 此 依赖 的 程度 。 
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测量 协 方差 
用 数学 方法 测量 协 方差 有 点 难度 ， 我 会 尽量 解释 一 下 。 步 骤 如 下 : 


口 将 两 个 变量 数据 集 看 作 高 维 向 量 ; 
口 将 这 两 个 向 量 转 换 为 表示 与 均值 之 间 差 异 的 向 量 ; 
口 计算 出 两 个 向 量 的 点 积 ( 向 量 夹 角 的 余弦 ); 

口 除 以 样本 大 小 。 


更 重要 的 是 理解 协 方差 的 使 用 方法 和 意义 。 要 计算 出 协 方差 , 可 以 先 将 数据 属性 看 作 高 维 向 
量 ， 然 后 计算 出 每 个 属性 与 均值 之 间 的 差异 ， 这 样 ， 我 们 就 有 了 对 应 于 不 同 维度 的 高 维 向 量 。 


这 种 高 维 空间 中 的 一 个 向 量 代表 一 个 属性 的 差异 ,比如 年 龄 的 差异 ; 另 一 个 向 量 则 代表 另外 
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一 个 属性 的 差异 , 比如 收入 的 差异 。 对 于 代表 不 同属 性 差异 的 两 个 向 量 , 可 以 计算 出 它们 的 点 积 。 
从 数学 角度 来 说 , 这 就 是 计算 两 个 高 维 向 量 之 间 夹 角 的 方法 。 如 果 两 个 向 量 非常 接近 ,就 说 明 这 
两 个 属性 的 差异 相差 不 大 。 将 最 后 的 点 积 除 以 样本 大 小 ， 就 可 以 得 到 协 方差 。 


现在 你 不 需要 自己 动手 去 计算 协 方差 . 使 用 Python 可 以 很 容易 地 计算 出 来 但是， 你 需要 
从 概念 上 理解 它 是 怎么 计算 出 来 的 。 


协 方差 的 问题 是 它 难 以 进行 解释 。 如 果 协 方差 接近 于 0， 就 说 明 两 个 变量 之 间 没 有 什么 相关 
性 ,但 是 如 果 协 方差 非常 大 ， 则 意味 着 变量 之 间 是 相关 的 。 那 么 多 大 才 算 大 呢 ? 根据 我 们 使 用 的 
单位 ， 可 能 有 多 种 不 同 的 方法 来 解释 数据 。 这 就 是 相关 系数 要 解决 的 问题 了 。 


3.2.2 ”相关 系数 


相关 系数 通过 每 个 属性 的 标准 差 实现 了 归 一 化 ( 就 是 用 协 方差 除 以 两 个 变量 的 标准 差 , 实现 
归 一 化 )。 通 过 归 一 化 ， 我 们 可 以 明确 地 说 ， 相 关系 数 为 -1 表示 完全 负 相 关 ， 即 当 一 个 属性 的 值 
增加 时 ， 另 一 个 属性 的 值 减少 ,反之 亦 然 。 相 关系 数 为 0 表示 两 组 属性 没有 相关 性 。 相 关系 数 为 
1 表示 完全 相关 ， 即 两 个 属性 在 不 同 数据 点 之 间 按 照 完全 一 样 的 方式 进行 变化 。 














































































































































































































请 记 住 ,相关 性 并 不 意味 着 因果 关系 。 仅 赁 两 个 属性 之 间 的 高 度 相关 不 能 表明 一 个 
属性 是 引起 另 一 个 属性 的 原因 ， 它 只 能 表明 二 者 之 间 具 有 联系 ,而 这 种 联系 完全 可 

i 能 是 由 于 另外 的 原因 导致 的 。 能 真正 确定 因果 关系 的 唯一 方法 是 通过 受 控 实验 , 后 
面 的 内 容 中 将 对 其 进行 讨论 。 


3.2.3 在 Python 中 计算 协 方差 和 相关 系数 


下 面 来 使 用 实际 的 Python 代码 计算 协 方 差 和 相关 系数 。 从 概念 上 来 说 ， 计 算 协 方差 就 是 先 
找 出 表示 每 个 属性 的 差异 的 高 维 向量 , 再 计算 出 两 个 向 量 的 夹 角 。 计 算 协 方差 的 数学 方法 要 比 听 
起 来 简单 得 多 。 我 们 讨论 高 维 向 量 ， 听 起 来 好 像 是 在 说 斯 蒂 芬 .霍金 研究 的 东西 ， 但 从 数学 角度 
来 看 其 非常 简单 直接 。 


1. 计算 相关 系数 一 一 基本 方法 


先 从 计算 相关 系数 的 基本 方法 开始 。NumpPy 确实 提供 了 计算 相关 系数 的 方法 ， 稍 后 将 会 讲 
到 ， 现 在 ， 我 们 还 是 先 学 习 一 下 基本 的 计算 方法 : 


smatplotlib inline 

























































































import numpy as np 
from pylab import * 


def de_mean (x): 
xmean = mean (x) 
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return [xi - xmean for xi in x] 


def covariance (x, y): 
n= lenl(x) 
return dot (de mean(x), de mean(y)) / (n-1) 
再 说 一 遍 ， 协 方差 是 两 个 向 量 的 点 积 , 是 测量 两 个 向 量 之 间 夹 角 的 一 种 方式 ， 这 两 个 向 量 表 
示 的 都 是 与 均值 之 间 的 差异 。 计 算 完 点 积 之 后 ， 再 除 以 上- 1， 因为 这 个 例子 处 理 的 是 样本 数据 。 


所 以 ， 计 算 与 均值 之 间 差 异 的 函数 ae_mean () 处 理 的 是 一 组 数据 ，x 实际 上 是 一 个 列表 ， 
函数 先 计 算出 这 组 数据 的 均值 。 在 return 语句 中 ， 我 们 使 用 了 一 些 Python 语言 小 技巧 。 这 行 
代码 的 意义 是 ， 要 创建 一 个 新 列表 ,依次 处 理 x 中 的 每 个 元 素 ，xi 表示 的 就 是 x 中 的 元 素 ， 返 
回 的 就 是 所 有 数据 点 与 均值 xmean 之 间 的 差异 。 这 个 函数 返回 一 个 新 数据 列表 ， 表 示 每 个 数据 
点 与 均值 之 间 的 差异 。 


函数 covariance () 计 算 两 组 输入 数据 的 协 方差 ， 它 除 以 的 数 是 数据 点 数 减 1。 回 忆 一 下 前 
面 内 容 中 提 到 的 样本 与 总 体 的 差别 ， 这 里 就 是 一 个 体现 。 接 下 来 可 以 使 用 这 些 函 数 了 。 


把 这 个 示例 扩展 一 下 ,构造 一 些 数 据 来 表示 页 面 显示 速度 和 人 们 消费 金额 之 间 的 关系 ,例如 ， 
在 亚马逊 公司 , 他 们 就 非常 关心 页 面 显示 速度 和 人 们 消费 金额 之 间 的 关系 。 二 者 之 间 是 否 存 在 真 
正 的 联系 , 这 就 是 你 要 去 弄 清 楚 的 。 对 于 页 面 显 示 速 度 和 消费 金额 , 我 们 都 使 用 正 态 分 布 来 生成 
一 些 随 机 数据 。 因 为 数据 是 随机 的 ， 所 以 二 者 之 间 不 会 存在 真正 的 相关 性 。 


pageSpeeds = np.random.normal(3.0, 1.0, 1000) 
purchaseAmount = np.random.normal(50.0, 10.0, 1000) 





















































scatter (pageSpeeds, purchaseAmount) 


Covariance (pageSpeeds, purchaseAmount) 


使 用 散 点 图 来 检查 一 下 这 些 数据 。 








ut[14]; 068.0755579378449864499 
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可 以 看 出 , 数据 有 向 中 间 聚 集 的 趋势 ， 因 为 两 个 属性 都 服从 正 态 分 布 , 但 二 者 之 间 没 有 真正 
的 联系 。 对 于 任意 给 定 的 页 面 载 和 速度， 消费 金额 的 范围 都 非常 大 。 反 之 ,给 定 消费 金额 ,页面 
载 入 速度 的 范围 也 非常 大 。 这 两 个 属性 除了 都 是 随机 的 和 服从 正 态 分 布 之 外 ,没有 什么 相关 性 。 
如 果 计 算出 这 两 个 属性 的 协 方差 ， 肯 定 是 个 非常 小 的 值 ， 果 然 ， 是 -0.07。 所 以 ， 协 方差 非常 小 ， 
接近 于 0。 这 说 明 二 者 之 间 没 有 真正 的 联系 。 


下 面 来 使 这 个 例子 更 有 趣 一 些 ， 让 消费 金额 是 页 面 载 人 速度 的 一 个 函数 。 


purchaseAmount = np.random.normal(50.0, 10.0, 1000) / pageSpeeds 









































scatter (pageSpeeds, purchaseAmount) 


Covariance (pageSpeeds, purchaseAmount) 





这 样 ， 虽然 数据 还 是 随机 的 ， 但 是 我 们 在 两 组 数值 之 间 创 建 了 一 种 实在 的 关系 。 对 于 一 个 
特定 用 户 , 他 的 页 面 载 入 速度 和 消费 金额 之 间 有 了 实际 的 联系 。 如 果 绘 制 出 数据 ,可 以 得 到 以 下 
疆 困 
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可 以 看 出 , 数据 点 确实 紧密 地 分 布 在 一 条 曲线 周围 。 底 部 附近 的 数据 有 些 分 散 , 但 这 只 是 随 
机 因素 的 影响 。 如 果 计 算出 协 方差 ,就 会 得 到 一 个 非常 大 的 值 ， 即 -8。 数 值 的 大 小 非常 重要 , 符 
号 的 正 负 表示 的 是 正 相 关 还 是 负 相 关 。8 这 个 值 比 0 大 得 多 ， 所 以 我 们 发 现 了 一 些 问 题 ， 但 还 是 
难以 解释 8 具体 意味 着 什么 。 


这 就 是 引入 相关 系数 的 原因 ， 即 它 通过 标准 差 将 协 方差 进行 了 归 一 化 。 代 码 如 下 : 


def correlation( 
stddevx = x.stdl( 
stddevy = y.std() 

return covariance(x,y) / stddevx / stddevy #In real life you'd check for 
divide by zero here 


























bh 
) 


correlation(pageSpeeds, purchaseAmount) 
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按照 最 基本 的 原则 ， 可 以 计算 出 两 组 属性 之 间 的 相关 系数 。 先 计算 出 每 组 属性 的 标准 差 ， 
再 计算 出 二 者 之 间 的 协 方差 ,然后 用 协 方差 除 以 两 个 标准 差 , 就 可 以 计算 出 相关 系数 的 值 ， 而且 
这 个 值 被 归 一 化 到 -1 和 1 之 间 。 我 们 计算 出 这 个 值 是 -0.4, 表示 两 组 属性 之 间 存 在 一 定 程度 的 负 
相关 。 














Out[3]: -6.46775563114687165 









































这 不 是 一 条 直线 ， 如 果 是 直线 的 话 ， 相 关系 数 应 该 为 -1， 但 确实 存在 相关 性 。 





2. 计算 相关 系数 一 一 使 用 NumPy 
在 NumPy 中 ， 你 可 以 使 用 corrcoef () 函数 来 计算 相关 系数 。 来 看 下 面 的 代码 : 


np.corrcoef (pageseeds, purchaseAmount) 


这 行 代 码 的 输出 如 下 : 
array ([(1. ;-046728788]， 


[-0.46728788]，1. ] ) 


所 以 ， 如 果 你 想 使 用 简便 的 方法 计算 相关 系数 ， 就 使 用 np.corrcoef (pageSpeeds ， 
purchaseamount) ， 它 的 结果 是 一 个 数组 ， 给 出 了 你 传人 的 两 组 数据 的 所 有 组 合 的 相关 系数 。 
这 个 结果 可 以 这 样 解 释 : 1 表示 pageSpeeds 和 purchaseamount 都 和 它们 本 身 完 全 相关 ， 理 
应 如 此 。 但 对 于 pageSpeeds 和 burchaseaAmount ， 或 者 purchaseaAmount 和 pageSpeeds， 
它们 之 间 的 相关 系数 是 -0.4672， 这 和 使 用 基本 方法 计算 出 来 的 值 基本 相同 。 精 确 地 说 ， 两 种 计 
算 方法 的 结果 之 间 有 些 误差 .但 并 不 重要 。 




















下 面 我 们 构造 出 一 种 完美 的 线性 关系 来 看 看 完全 相关 ， 例 子 如 下 : 


purchaseAmount = 100 - pageSpeeds * 3 
scatter (pageSpeeds, purchaseAmount) 


correlation (pageSpeeds, purchaseAmount) 











我 们 预计 相关 系数 是 -1， 因 为 这 是 一 种 完全 负 相 关 。 实 际 正 是 这 样 。 
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Out[28]: -1.86890198188918618811 
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再 次 提醒 一 下 : 相关 性 不 是 因果 关系 。 如 果 页 面 载 入 速度 快 的 人 消费 得 更 多 , 可 能 只 是 由 于 








他 们 可 以 负担 更 好 的 网 络 连 接 ， 并 不 意味 着 页 面 载 人 速度 和 消费 金额 之 间 有 着 实在 的 因果 关系 。 
但 是 , 二 者 之 间 确 实 有 一 种 有 趣 的 关系 ,需要 你 做 更 多 的 研究 。 不 经 过 实验 ,你 不 能 确定 任何 因 
果 关 系 ， 但 相关 性 可 以 告诉 你 实验 的 方向 。 








3.2.4 相关 系数 练习 


实际 使 用 一 下 numpy .cov () 函数 , 这 是 使 用 NumPy 计算 协 方差 的 方法 。 我 们 已 经 知道 了 使 














用 corrcoef () 图 数 可 以 计算 相关 系数 。 回 过 头 去 ， 使 用 numpy . cov () 函数 再 运行 一 下 这 些 例 
子 ， 看 看 能 和 否 得 到 同样 的 结果 。 结 果 肯 定 会 非常 接近 ， 因 此 ,不 要 再 使 用 那些 基本 方法 了 ， 使 用 
NumPy 来 看 看 结果 是 否 相 同 。 这 些 练习 的 意义 在 于 让 你 熟悉 NumPy, 并 将 其 应 用 到 实际 数据 上 ， 
































试 试看 吧 。 


















































这 就 是 协 方差 与 相关 系数 的 理论 与 实际 应 用 , 它们 是 非常 有 用 的 技术 , 请 一 定 要 掌握 这 节 内 


容 。 下 面 我 们 继续 。 


3.3 条件 概 率 


























下 面 讨论 条 件 概率 。 条 件 概率 是 个 非常 简单 的 概念 , 它 是 在 其 他 事情 发 生 的 条 件 下 某 个 事情 
发 生 的 概率 。 尽 管 听 起 来 很 简单 ， 但 其 中 有 些 内 容 还 是 很 “ 烧 脑 ”的 。 去 喝 杯 咖啡 ， 整 理 一 下 思 


绪 ， 准 备 好 学 习 一 些 比较 难 的 概念 





























条 件 概 率 是 一 种 测量 两 个 同时 发 生 的 事情 之 间 关系 的 方法 。 如 果 想 找 出 一 个 事件 在 男 一 个 事 
件 已 经 发 生 的 情况 下 发 生 的 概率 ， 就 可 以 使 用 条 件 概率 。 























使 用 条 件 概率 要 解决 的 问题 是 : 如 果 两 个 事件 是 互相 依赖 的 ， 那么 它们 同时 发 生 的 概率 是 


多 少 ? 
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来 看 一 下 数学 表示 。P(4, 8) 表示 4 和 8B 在 彼此 独立 的 情况 下 同时 发 生 的 概率 , 也 就 是 说 ,两 
事件 在 不 考虑 其 他 因素 时 同时 发 生 的 概率 。 


P(B|4) 读 作 给 定 4 时 B 的 概率 。 那么 在 事件 4 已 经 发 生 的 情况 下 , 事件 8 发 生 的 概率 到 底 是 
多 少 呢 ? 这 和 上 面 的 概率 有 点 区 别 ， 它 们 之 间 的 联系 如 下 。 


P(A,B) 
P(A) 


给 定 4 时 8 的 概率 等 于 4 和 B 同 时 发 生 的 概率 除 以 4 单独 发 生 的 概率 ， 这 样 就 得 到 了 与 4 
发 生 的 概率 相关 的 B 的 概率 。 


下 面 会 举 个 例子 ， 将 这 个 概率 说 得 更 清楚 一 点 


假设 我 们 对 本 书 读者 进行 了 两 项 测试 , 结果 有 60% 的 读者 通过 了 这 两 项 测试 。 第 一 项 测试 比 
较 简单 ,有 80% 的 读者 通过 。 通过 以 上 信息 , 可 以 找 出 那些 通过 了 第 一 项 测试 的 读者 通过 第 二 项 
测试 的 百分比 。 这 就 是 一 个 能 说 明 给 定 4 时 8B 的 概率 和 4 和 B 同时 发 生 的 概率 之 间 区 别 的 实际 
例子 。 


下 面 用 4 表示 通过 第 一 项 测试 的 概率 , 用 B 表示 通过 第 二 项 测试 的 概率 。 我 们 要 求 的 是 在 通 
过 了 第 一 项 测试 的 情况 下 通过 第 二 项 测试 的 概率 ， 也 就 是 P(B|4)。 
P(A,B) 0.6 
PC 0.8 


和 











P(B| A)= 






















































































=0.75 





P(B| A)= 














所 以 ， 在 通过 了 第 一 项 测试 的 情况 下 通过 第 二 项 测试 的 概率 等 于 通过 了 两 项 测试 的 概率 
P(4, B) (有 60% 的 人 通过 了 两 项 测试 ) 除 以 通过 了 第 一 项 测试 的 概率 P(4)， 即 除 以 80%。 因 为 
有 60% 的 人 通过 了 两 项 测试 ，80% 的 人 通过 了 第 一 项 测试 ， 所 以 在 通过 了 第 一 项 测试 的 情况 下 ， 
通过 第 二 项 测试 的 概率 为 75%。 

好 了 ,这 个 概念 理解 起 来 是 有 点 难度 的 。 我 也 是 花 了 一 些 时 间 , 才 搞 清楚 在 给 定 某 事 的 情况 
下 男 一 件 事 发 生 的 概率 与 这 两 件 事 独立 同时 发 生 的 概率 之 间 的 区 别 。 在 进行 下 面 的 内 容 之 前 , 请 
确认 你 理解 了 上 面 的 例子 。 










































































3.3.1 Python 中 的 条 件 概率 练习 


下 面 来 使 用 实际 的 Python 代码 练习 一 个 更 复杂 一 些 的 例子 ， 看 看 如 何 使 用 Python 实现 上 面 
的 概念 。 


我 们 将 实现 条 件 概率 ， 并 使 用 条 件 概率 和 虚构 数据 确定 在 年 龄 和 购买 内 容 方面 是 否 存在 联 
系 。 请 打开 ConditionalProbabilityExercise.ipynb 文件 一 起 来 练习 。 
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使 用 下 面 的 Python 代码 虚构 一 些 数据 : 


from numpy import random 
random.seed (0) 


totals se:.{20705, “3005,. 40: 0 "50 0 60:505, 70:507 
purehases, ss (2050 "3300 40%07 500, 60%0, 70%0} 
totalPurchases = 0 
for _ in range(100000): 
ageDecade = random.choice([20, 30, 40, 50, 60, 70]) 
purchaseProbability = float(ageDecade) / 100.0 
totals[lageDecade] += 1 
if (random.random() < purchaseProbability): 
totalPurchases += 1 
purchases[ageDecade] += 1 


我 们 将 创建 100 000 个 虚拟 人 ， 并 将 他 们 随机 地 分 配 到 各 个 年 龄 组 : 20 岁 、30 岁 、40 岁 、 
50 岁 、60 岁 或 70 岁 。 我 们 还 为 他 们 分 配 了 一 个 数值 ,表示 他 们 在 一 段 时 间 内 的 购物 数量 。 然 后 ， 
计算 一 下 不 同年 龄 段 的 购买 概率 。 








上 述 代码 使 用 NumPy 中 的 random.choice() 函数 ， 随 机 地 将 某 个 人 分 配 到 一 个 年 龄 组 中 。 
然后 ,我们 为 这 个 人 分 配 了 一 个 购买 某 种 产品 的 概率 , 假设 随 着 年 龄 的 增加 ， 购 买 这 种 产品 的 概 
率 也 随 之 增加 。 接 下 来 依次 处 理 这 100 000 个 虚拟 人 , 将 所 有 结果 都 加 起 来 。 最 后 得 到 两 个 Python 
字典 : 一 个 表示 每 个 年 龄 组 中 的 总 人 数 ， 男 一 个 表示 每 个 年 龄 组 中 购买 该 产品 的 总 数量 。 我 们 还 
同时 计算 出 了 总 体 的 购买 数量 。 下 面 可 以 运行 一 下 代码 。 




















如 果 你 想 仔 细 地 想 想 这 段 代码 是 如 何 工作 的 ， 可 以 好 好 地 看 一 下 IPython Notebook。 你 也 可 
以 稍 后 再 看 。 下 面 先 看 看 代码 的 结果 。 








In [2]: | totals 
Jut[2] : {28: 16576，36: 16619，48: 16632, 58: 16885, 68: 16664, 78: 16764} 
In [3]: purchases 


out [3]: {28: 3392, 38; 4974，46:; 6678, 58: 8319，68: 9944，76: 11713} 





In [4] totalpurchases 


ut [4]: 45912 











字典 totals 告诉 了 我 们 每 个 年 龄 组 中 有 多 少 人 , 不 出 所 料 ， 这 个 分 布 非常 平均 。 每 个 年 龄 
组 的 购买 数量 是 随 着 年 龄 的 增加 不 断 增 长 的 ，20 岁 年 龄 组 只 买 了 大 约 3000 个 产品 ，70 岁 年 龄 组 
则 买 了 大 约 11 000 个 产品 ， 全 部 的 人 一 共 买 了 大 约 45 000 个 产品 。 


让 我 们 使 用 这 些 数 据 来 说 明 一 下 条 件 概率 的 概念 。 首 先 找 出 30 岁 年 龄 组 的 人 购买 该 产品 的 
概率 。 令 购买 事件 为 已 ， 位 于 30 岁 年 龄 组 这 个 事件 为 尺 ， 那 么 这 个 概率 可 以 表示 为 PE 站 。 
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尽管 有 了 一 个 漂亮 的 公式 ， 可 以 在 给 定 P(E, P) 和 P(E) 的 情况 下 计算 出 P(EIF), 但 其 实 根本 
不 需要 这 人 么 做 。 你 不 能 盲目 地 应 用 公式 ， 而 应 该 对 数据 具有 直觉 。 数 据 可 以 告诉 我 们 什么 呢 ? 我 
们 是 要 找 出 当 你 位 于 30 岁 年 龄 组 时 ， 购 买 某 种 产品 的 概率 。 我 们 已 经 有 了 所 有 数据 ， 可 以 直接 
算出 来 。 


PEF = float (purchases[30]) / float(totals[30]) 


在 purchases[30] 中 保存 着 30 多 岁 人 购买 的 产品 数量 ,我 们 还 知道 30 岁 年 龄 组 人 的 数量 ， 所 
以 ， 只 要 用 购买 的 产品 数量 除 以 人 的 数量 ,就 可 以 求 出 比率 。 然 后 可 以 使 用 打印 语句 输出 这 个 


士 四 
结果 : 
































print ("P(purchase | 30s): ", PEF) 

于 是 得 到 了 这 样 一 个 概率 ， 如 果 你 是 30 多 岁 ， 那 么 购买 该 产品 的 概率 大 概 是 30%: 
Pl(purchase | 30s): 0.2992959865211 

请 注意 ， 如 果 你 使 用 的 是 Python 2， 那 么 打印 语句 中 将 不 需要 用 括号 ， 如 下 所 示 : 


print "p(purchase | 30s): ", PEF 


如 果 想 找 出 P(F), 即 30 岁 年 龄 组 的 人 在 总 人 数 之 中 的 概率 , 可 以 使 用 30 岁 年 龄 组 人 的 总 数 
量 除 以 数据 集中 全 部 的 人 的 数量 ， 即 除 以 100 000: 


PF = float(totals{[30]) / 100000.0 
print ("P(30's): ", PF) 


同样 ， 在 使 用 Python 2 时 ， 不 要 使 用 括号 。 结 果 如 下 : 
DISO0B)Y V0.16619 

即 某 个 人 是 30 多 岁 的 概率 大 约 是 16%。 
下 面 找 出 P( 可 ， 它 表示 不 考虑 年 龄 时 购买 该 商品 的 概率 : 


PE = float(totalPurchases) / 100000.0 
print ("P(Purchase):"，PE) 





















































P(Purchase): 0.45012 


在 这 个 例子 中 ,P(E) 大 约 是 45%。 可 以 使 用 不 考虑 年 龄 时 所 有 人 的 购买 数量 除 以 总 人 数 , 得 
到 的 就 是 总 体 购买 概率 。 


那么 现在 都 得 到 了 哪些 数据 ? 我 们 知道 了 在 给 定 某 人 属于 30 岁 年 龄 组 时 ， 他 购买 该 产品 的 
概率 大 约 是 30%， 还 有 ， 这 个 产品 的 总 体 购买 概率 为 45%。 


如 有 果 互 和 是 独立 的 ， 如 果 年 龄 不 影响 购买 ， 那 么 可 以 期 望 P(E 四 和 P(E) 是 同样 的 ， 即 期 
望 一 个 30 多 岁 的 人 购买 该 产品 的 概率 和 总 体 购买 概率 是 一 样 的 。 但 实际 上 ， 二 者 是 不 一 样 的 。 
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因为 二 者 之 间 的 这 种 差异 , 我 们 知道 实际 上 二 者 在 某 种 程度 是 相关 的 。 这 就 是 使 用 条 件 概 率 找 出 
数据 之 间 相关 性 的 方法 。 


再 来 看 一 些 其 他 的 表示 方法 。 如 果 你 看 到 P(E)P(F) 这 种 表示 ， 就 说 明 是 将 这 两 个 概率 相 乘 。 
可 以 使 用 总 体 购买 概率 乘 以 某 个 人 是 30 多 岁 的 概率 : 


print ("P(30's)P(Purchase)", PE * PF) 


























P(30's)P(Purchase) 0.07480544280000001 
结果 是 7.5%。 

根据 概率 的 原理 ， 如 果 想 求 出 两 件 事情 同时 发 生 的 概率 ， 就 可 以 将 这 两 个 概率 相 乘 。 所 以 
P(E, 门 就 是 PE)PCUP)。 


print ("P(30's, Purchase)", float (purchases[30]) / 100000.0) 
P(30's, Purchase) 0.04974 


因为 数据 是 随机 分 布 的 ， 所 以 结果 会 有 一 点 差别 。 请 记 住 , 这 里 讨论 的 是 概率 ， 所 以 大 概 差 
不 多 就 可 以 了 。 

这 个 值 和 P(E| 丰 是 不 一 样 的 ， 所 以 ,既是 30 多 岁 又 购买 了 产品 的 概率 和 在 给 定 了 30 多 岁 时 
购买 产品 的 概率 是 不 同 的 。 

下 面 来 验证 一 下 3.3 节 中 的 条 件 概 率 公 式 , 即 给 定 了 30 多 岁 后 购买 该 产品 的 概率 应 该 等 于 既是 
30 多 岁 又 购买 了 该 产品 的 概率 除 以 总 体 购买 概率 , 也 就 是 说 , 这 里 要 验证 一 下 P(EIF)= PE, FPC。 

(float (Purchases [30]) / 100000.0) / PF 
结果 为 : 

Out []:0.29929598652145134 

果然 如 此 。 如 果 用 给 定 30 多 岁 后 购买 该 产品 的 概率 除 以 总 体 购买 概率 ， 那 么 结果 大 概 是 30%， 
和 前 面 用 数据 算出 的 结果 非常 接近 。 所 以 ， 这 个 公式 是 正确 的 ! 


以 上 内 容 还 是 挺 难 的 ， 有 点 令 人 迷惑 ， 所 以 你 应 该 好 好 思考 并 研究 一 下 , 确认 理解 了 这 部 分 
内 容 。 我 尽量 举 了 足够 多 的 例子 来 说 明 各 种 情况 。 如 果 你 完全 理解 了 ,那么 请 亲自 动手 做 一 下 下 
面 的 作业 。 





























































































































3.3.2 ”条件 概率 作业 
我 想 让 你 修改 一 下 前 面 小 节 中 用 过 的 如 下 Python 代码 。 


from numpy import random 
random.seed(0) 


3.3 ”条件 概 率 85 





0 O00 0 了 0 
Duronases Ss (20803. 30:0% 40%0% 50505 6080 F050 
totalPurchases = 0 

for in range(100000): 


ageDecade = random.choice([20, 30, 40, 50, 60, 70]) 
purchaseProbability = 0.4 

totals[ageDecade] += 1 

if (random.random() < purchaseProbability): 
totalPurchases += 1 

purchasesl[lageDecade] += 1 


将 以 上 代码 修改 为 在 购买 概率 与 年 龄 之 间 不 存在 依赖 关系 ， 各 个 年 龄 组 的 购买 概率 是 相同 
的 ， 然 后 再 看 看 对 结果 的 影响 。 如 果 你 属于 30 岁 年 龄 组 ， 那 么 购买 某 种 产品 的 概率 与 总 体 购 买 
概率 会 有 很 大 区 别 吗 ?” 这 个 结果 能 告诉 你 关于 数据 和 两 个 不 同属 性 之 间 关 系 的 哪些 信息 ? 去 试 
一 下 , 确定 你 能 够 从 数据 中 得 到 一 些 结 果 ， 并 能 够 理解 为 什么 能 得 到 这 些 结果 ， 随 后 我 会 告诉 你 


这 个 问题 的 答案 。 


以 上 就 是 条 件 概 率 的 理论 和 应 用 。 这 里 面 有 很 多 细节 和 令 人 迷惑 的 表示 法 。 如 果 你 还 有 些 困 
惑 ， 就 回 过 头 去 ， 好 好 复习 一 下 这 部 分 内 容 。 我 布置 了 一 项 作业 ， 你 应 该 自己 动手 做 一 下 ,看 看 
是 否 真 的 能 够 修改 IPython Notebook 中 的 代码 ， 生 成 一 个 对 所 有 年 龄 组 都 一 样 的 购买 概率 。 然 后 
再 看 看 我 是 怎么 解决 这 个 问题 的 以 及 最 终结 果 。 









































3.3.3 ”作业 答案 

你 做 作业 了 吗 ? 真希 望 你 做 了 。 下 面 来 看 一 下 我 的 答案 , 看 看 条 件 概 率 是 如 何 告诉 我 们 在 一 
个 虚构 的 数据 集中 确定 年 龄 和 购买 概率 之 间 是 否 存在 联系 的 。 

提醒 一 下 , 我 们 要 做 的 是 除去 年 龄 和 购买 概率 之 间 的 联系 , 再 看 看 条 件 概 率 的 值 能 否 反映 出 
这 种 情况 。 下 面 是 我 的 答案 


from numpy import random 
random.seed (0) 




































































Lotals: = 2080,0 3080 42080 3500 00 70: 0 
DUrehases. s(t20603. B006.. 4000. 5006. GOOG 7O 0 
totalPurchases = 0 
for _ in range(100000): 
ageDecade = random.choice([20, 30, 40, 50, 60, 70]) 
purchaseProbability = 0.4 
totals[lageDecade] += 1 
if (random.random() < purchaseProbability): 
totalPurchases += 1 
purchases[ageDecade] += 1 


我 保留 了 一 些 原来 的 代码 ， 用 于 创建 年 龄 组 字典 ， 并 统计 了 在 100 000 个 随机 生成 的 虚拟 人 
物 中 按 年 龄 分 组 的 购买 数量 。 但 没有 继续 使 购买 概率 依赖 于 年 龄 ,而 是 将 购买 概率 设置 为 固定 的 
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值 , 即 40%。 我 们 还 是 将 人 们 随机 分 配 到 每 个 年 龄 组 , 并 使 他 们 具有 同样 的 购买 某 种 产品 的 概率 。 
下 面 运行 一 下 这 段 代码 。 

这 一 次 ， 如 果 要 计算 P(EIF)， 也 就 是 在 给 定位 于 30 岁 年 龄 组 的 情况 下 购买 产品 的 概率 ， 会 
得 到 这 个 值 约 为 40%。 


PEF = float (purchases[30]) / float(totals[30]) 
print ("P(purchase | 30s): ", PEF) 








P(l(purchase | 30s): 0.398760454901 


和 总 体 购买 概率 比较 一 下 ， 它 也 大 约 是 40%。 


PE = float(totalPurchases) / 100000.0 
print ("P(Purchase):", PE) 


P(Purchase): 0.4003 


由 此 可 知 ，30 岁 年 龄 组 中 购买 产品 的 概率 和 总 体 概率 基本 相同 ( 即 P(EIF) 和 P(E) 非常 
接近 )。 这 说 明 购 买 概率 和 年 龄 之 间 没 有 什么 联系 。 实 际 上 ， 我 们 并 不 是 通过 数据 才 知 道 这 个 结 
果 的 。 


在 实际 工作 中 , 这 个 结果 可 能 是 由 随机 性 造成 的 , 所 以 你 应 该 检查 更 多 的 年 龄 组 。 你 应 该 检 
查 更 多 的 数据 来 确定 是 否 存在 真正 的 联系 , 上 面 例子 只 是 通过 修改 的 数据 来 说 明 在 年 龄 和 购买 概 
率 之 间 不 存在 联系 。 

这 就 是 条 件 概 率 的 实战 练习 , 希望 你 的 答案 与 标准 答案 非常 接近 , 并 有 同样 的 结果 。 如 果 没 
有 , 那么 再 去 研究 一 下 我 的 答案 , 它 就 在 随 书 的 数据 文件 , 即 ConditionalProbabilitySolution.ipynb 
中 。 如 果 你 需要 , 就 打开 这 个 文件 学 习 一 下 。 显 然 , 由 于 随机 性 , 你 的 结果 会 有 一 些微 小 的 差别 ， 
你 选择 的 总 体 购 买 概率 也 对 结果 具有 影响 ， 但 就 是 这 样 。 


介绍 完 条 件 概 率 ， 下 面 来 学 习 一 下 贝 叶 斯 定理 。 





































































































3.4” 贝 时 斯 定理 

如 果 掌 握 了 条 件 概率 , 那么 应 用 贝 叶 斯 定理 就 非常 简单 ， 因 为 它 就 是 基于 条 件 概率 的 。 贝 叶 
斯 定理 非常 重要 ,特别 是 在 医学 领域 , 但 它 在 其 他 领域 的 应 用 也 是 非常 广泛 的 , 很 快 你 就 会 知道 
个 中 原因 。 

你 可 能 多 次 听 说 这 个 定理 , 但 真正 理解 它 的 意义 和 重要 性 的 人 不 是 很 多 。 当 有 人 想 使 用 统计 
学 来 误导 你 的 时 候 ， 这 个 定理 可 以 清楚 地 指出 其 中 的 错误 。 下 面 来 看 一 下 它 是 如 何 起 作用 的 。 

首先 , 我 们 从 一 个 较 高 的 层次 来 讨论 贝 叶 斯 定理 。 贝 叶 斯 定理 可 以 简单 表述 如 下 : 给 定 8 时 
4 的 概率 等 于 4 的 概率 乘 以 给 定 4 时 8 的 概率 再 除 以 B 的 概率 。 你 可 以 将 4 和 BB 替换 为 任意 事件 。 
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P(A)P(B| A) 


P(AIB)= Re 


这 个 定理 的 关键 在 于 说 明了 某 个 依赖 于 B 的 事件 4 的 概率 与 和 4 的 基础 概率 的 


一 个 常见 的 例子 就 是 药品 测试 , 也 就 是 要 找 出 在 药品 作用 是 阳性 的 情况 下 人 们 使 用 药品 的 概 
率 。 贝 叶 斯 定理 之 所 以 很 重要 就 在 于 , 它 可 以 说 明 这 个 概率 与 4 的 概率 和 8 的 概率 的 关系 都 非常 
大 。 如果 药 品 的 作用 是 阳性 的 , 那么 人 们 使 用 药品 的 概率 与 药品 的 总 体 使 用 概率 以 及 测试 为 阳性 
的 总 体 概率 的 关系 都 非常 大 。 药品 测试 结果 准确 的 概率 不 仅 取 决 于 测试 的 准确 性 , 还 非常 依赖 于 
在 全 体 人 口中 药品 使 用 者 的 概率 。 


贝 叶 斯 定理 还 说 明了 给 定 4 时 8 的 概率 和 给 定 B 时 4 的 概率 不 是 一 回 事 ， 也 就 是 说 ， 药 品 
作用 为 阳性 时 人 们 使 用 药品 的 概率 与 人 们 使 用 药品 时 药品 作用 为 阳性 的 概率 差别 可 能 非常 大 。 你 
可 以 看 到 这 个 问题 是 如 何 产生 的 。 医 学 中 的 诊断 测试 与 药品 测试 会 产生 大 量 的 假 阳 性 结果 , 这 是 
一 个 非常 实际 的 问题 。 你 可 以 说 一 项 测试 检测 到 药品 使 用 者 的 药品 作用 为 阳性 的 概率 很 高 , 但 这 
并 不 意味 着 药品 作用 为 阳性 时 人 们 使 用 药品 的 概率 很 高 。 它 们 是 两 件 不 同 的 事情 ， 贝 叶 斯 定理 会 
清楚 地 说 明 其 中 的 区 别 。 


我 们 再 解释 一 下 那个 例子 。 


药品 测试 是 利用 贝 叶 斯 定理 说 明 问 题 的 一 个 常见 例子 。 即 使 是 一 个 非常 精确 的 药品 测试 , 也 
可 能 产生 比 真 阳性 更 多 的 假 阳 性 结果 。 在 上 面 的 例子 中 ,我 们 进行 了 一 项 药品 测试 , 识别 出 药品 
使 用 者 的 药品 作用 为 阳性 的 概率 是 99%， 在 不 使 用 药品 的 人 群 中 ， 药 品 作用 为 阴性 的 概率 也 是 
99%, 但 在 全 体 人 口中 , 使 用 药品 的 概率 只 有 0.3%。 所 以 ， 人们 实际 使 用 该 药品 的 概率 是 非常 低 
的 。99% 的 概率 看 上 去 非常 高 ， 实 际 上 则 没有 那么 高 ， 对 吗 ? 


可 以 进行 一 下 数学 解释 ， 如 下 所 示 : 


口 事件 4= 使 用 该 药品 ; 
口 事件 B= 药品 作用 为 阳性 。 


事件 4 为 人 们 使 用 该 药品 的 概率 ， 事件 8 为 药品 测试 时 作用 为 阳性 的 概率 。 


我 们 需要 找 出 测试 结果 为 阳性 的 总 体 概率 。 这 个 总 体 概率 是 药品 使 用 者 测试 结果 为 阳性 的 概率 
加 上 非 药 品 使 用 者 测试 结果 为 阳性 的 概率 。 所 以 ， 在 这 个 例子 中 ，P(B) 为 1.3%(0.99 x 0.003 + 0.01 x 
0.997)， 这 便 求 出 了 的 概率 ， 即 药品 测试 结果 为 阳性 的 总 体 概率 。 


下 面 计算 一 下 在 药品 测试 为 阳性 时 人 们 使 用 药品 的 概率 。 






























































































































































P(A)P(B| A) 0.003x 0.99 


A 0.013 


= 22.8% 
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所 以 ,如果 测试 结果 为 阳性 ,那么 你 是 该 药品 使 用 者 的 概率 等 于 使 用 该 药品 的 总 体 概率 P(4)， 
也 就 是 3% (有 3% 的 人 口 是 药 品 使 用 者 )， 乘 以 P(B|4)， 也 就 是 在 药品 使 用 者 中 测试 结果 为 阳性 
的 概率 ， 再 除 以 测试 结果 为 阳性 的 总 体 概率 1.3%。 这 个 测试 的 结果 听 起 来 确实 很 高 ， 是 99%。 
我 们 用 药品 使 用 者 在 总 人 口中 的 比例 0.3% 乘 以 9%， 再 除 以 测试 结果 为 阳性 的 总 体 概率 1.3%， 
得 到 药品 测试 为 阳性 时 人 们 为 药品 使 用 者 的 概率 只 有 22.8%。 所 以 ， 尽管 药 品 测试 的 准确 率 为 
99%， 但 在 药品 测试 为 阳性 的 情况 下 ， 多 数 还 是 假 阳 性 的 结果 。 















































0 即使 P(B|A) 非 常 高 (99% )， 也 并 不 意味 着 P(4|B) 很 高 。 














人 们 总 是 会 忽视 这 一 点 。 所 以 ,只 要 学 习 了 贝 叶 斯 定理 ,就 会 对 这 种 事情 持 保 留 态度 。 在 这 
些 实际 问题 上 应 用 贝 叶 斯 定理 ， 对 于 那些 听 起 来 有 很 高 准确 率 的 问题 ， 你 经 常会 发 现 ,如 果 该 问 
题 的 研究 对 象 在 总 体 中 所 占 的 比例 非常 小 , 那么 结论 就 非常 具有 误导 性 。 在 瘤 证 得 查 和 其 他 类 似 
的 医学 筛 查 中 ,经 常会 出 现 这 种 问题 。 这 是 一 个 非常 实际 的 问题 ， 因 为 不 理解 贝 叶 斯 定理 ， 很 多 
人 接受 了 根本 不 必要 的 手术 。 如 果 你 进入 了 医学 大 数据 领域 ， 请 千 万 千 万 记 住 这 个 定理 。 

这 就 是 贝 叶 斯 定理 。 请 一 定 记 住 , 在 给 定 其 他 事件 时 , 某 个 事件 发 生 的 概率 与 相反 的 情况 是 
不 同 的 , 它 与 这 两 个 事件 的 基础 概率 关系 非常 大 。 贝 叶 斯 定理 非常 重要 ,需要 我 们 牢记 于 心 , 并 
用 它 来 检验 结果 ， 其 提供 了 量化 结果 的 方法 。 我 希望 它 对 你 能 有 所 帮助 。 



























































3.5 小 结 


本 章 首先 讨论 了 在 Python 中 使 用 matplot1ib 库 将 数据 绘制 成 图 形 以 及 对 图 形 进行 美化 的 
方法 。 然 后 学 习 了 协 方差 与 相关 系数 的 概念 ， 并 通过 一 些 例子 使 用 Python 计算 出 了 协 方差 和 相 
关系 数 。 接 下 来 分 析 了 条 件 概率 的 概念 ， 并 使 用 一 些 示 例 来 使 读者 对 条 件 概 率 有 了 更 深 的 理解 。 
最 后 介绍 了 贝 叶 斯 定理 及 其 重要 性 ， 特 别 是 它 在 医学 领域 中 的 应 用 。 


下 一 章 将 讨论 预测 模型 。 
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本 章 将 讨论 什么 是 预测 模型 ， 以 及 预测 模型 如 何 使 用 统计 学 根据 已 有 数据 预测 出 结果 。 我 们 
将 介绍 几 个 真实 世界 中 的 例子 ， 以 使 读者 对 这 个 概念 理解 得 更 加 深入 。 我 们 还 会 介绍 回归 分 析 ， 
并 详细 分 析 它 的 几 种 形式 。 我 们 也 会 举 一 个 例子 ， 来 预测 汽车 价格 。 


本 章 将 介绍 以 下 内 容 : 


口 线性 回归 及 其 在 Python 中 的 实现 ; 
口 多 项 式 回 归 及 其 应 用 与 示例 ; 
口 多 元 回归 及 其 在 Python 中 的 实现 ; 

口 一 个 示例 一 一 使 用 Python 建立 模型 来 预测 汽车 价格 ; 

口 多 水 平 模型 的 概念 ， 以 及 关于 该 模型 需要 知道 的 一 些 事情 。 























4.1 线性 回归 


回归 分 析 是 数据 科学 和 统计 学 中 的 一 个 热门 话题 。 它 是 对 一 组 观测 拟 合 一 条 曲线 或 某 种 函 
数 ， 然 后 再 用 拟 合 出 的 曲线 或 函数 预测 未 知 的 值 。 回 归 分 析 中 最 常见 的 是 线性 回归 。 

线性 回归 就 是 用 一 条 直线 去 拟 合 一 组 观测 。 例 如 ， 我 们 有 一 组 个 人 数据 ， 其 中 有 两 个 特征 ， 
即 身高 和 体重 。 
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我 们 用 x 轴 表 示 体 重 , ” 轴 表 示 身 高 ， 绘 制 出 所 有 数据 点 ， 看 看 身高 和 体重 之 间 的 关系 。 然 
后 可 以 说 :“ 嗯 , 看 上 去 它们 之 间 是 线性 关系 , 我 可 以 拟 合 出 一 条 直线 , 并 使 用 它 来 预测 新 的 值 。 
这 就 是 线性 回归 。 这 个 例子 最 后 得 到 的 是 斜率 为 0.6、 截 距 为 130.2 的 一 条 直线 ( 直线 的 公式 是 
y= x+D， 刀 为 和 斜率，2 为 截 距 )。 找 出 能 最 优 拟 合 数据 的 斜率 和 截 距 ， 就 可 以 使 用 这 条 直线 来 
预测 新 的 值 。 


可 以 看 出 ,我 们 观测 到 的 体重 最 高 只 有 100 千克 。 那 么 ,如果 有 人 重 120 千克 呢 ? 基于 已 知 
的 数据 ， 便 可 以 使 用 这 条 直线 预测 出 体重 为 120 千克 的 人 的 身高 。 


我 不 知道 为 什么 称 这 种 方法 为 回归 。 回 归 应 该 意味 着 做 一 些 反 向 的 事情 。 我 想 你 可 以 认为 这 
个 术语 的 意思 是 , 基于 以 前 的 观测 创建 一 条 直线 来 预测 新 的 值 ， 在 时 间 上 是 反 向 的 , 但 看 上 去 是 
一 种 延伸 。 说 实话 ,这 个 词 确实 有 点 令 人 迷惑 ， 人 们 使 用 了 一 个 非常 别致 的 词 来 表示 非常 简单 的 
概念 ， 但 反而 使 这 个 概念 模糊 不 清 。 总 之 ， 线 性 回归 就 是 用 一 条 直线 去 拟 合 一 组 数据 点 。 





































































































4.1.1 普通 最 小 二 乘法 


如 何 进行 线性 回归 ? 最 常用 的 技术 称 为 普通 最 小 二 乘法 , 简称 OLS。 你 可 能 已 经 见 过 这 个 术 
语 了 。 它 的 原理 是 使 每 个 数据 点 与 直线 之 间 的 误差 的 平方 和 最 小 。 误 差 就 是 数据 点 和 拟 合 出 的 直 
线 之 间 的 距离 。 

我 们 要 将 这 些 误差 的 平方 都 加 起 来 , 这 看 起 来 非常 像 计 算 方差 , 没 错 ， 只 不 过 计算 方差 时 误 
差 是 相对 于 均值 的 , 而 这 里 的 误差 是 相对 于 我 们 拟 合 出 的 直线 的 。 我 们 可 以 计算 出 数据 点 相对 于 
直线 的 误差 平方 和 ， 然 后 使 这 个 平方 和 最 小 化 ， 就 可 以 找 出 最 优 拟 合 直线 。 



























































其 实 你 完全 不 需要 使 用 这 种 烦琐 的 方法 来 进行 线性 回归 。 如 果 因 为 某 种 原因 确实 需要 这 样 
做 ,或 者 你 想 知道 这 种 方法 背后 的 原理 , 那么 我 可 以 向 你 描述 一 下 整体 算法 , 使 你 在 需要 的 时 候 
可 以 自己 使 用 基本 的 方法 计算 出 斜率 和 截 距 ， 这 也 并 不 复杂 。 


请 记 住 用 斜率 和 截 距 确 定 直线 的 公式 : y=mx+b。 斜率 就 是 两 个 变量 之 间 的 相关 系数 乘 以 了 
的 标准 差 再 除 以 了 的 标准 差 。 在 计算 斜率 时 涉及 了 标准 差 , 这 看 上 去 有 些 不 可 思议 , 但 鉴于 相关 
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系数 中 也 包含 标准 差 ， 因 此 再 次 用 到 标准 差 也 就 不 那么 令 人 惊讶 了 。 


截 距 的 计算 方法 是 , 用 了 的 均值 减 去 斜率 与 也 的 均值 的 乘积 。 这 也 很 容易 ,Python 可 以 帮 你 
完成 所 有 工作 ， 我 们 要 说 的 是 ， 这 些 计算 都 不 复杂 ， 可 以 非常 有 效 的 完成 。 


请 记 住 , 最 小 二 乘法 就 是 使 每 个 数据 点 与 直线 之 间 的 误差 平方 和 最 小 。 男 一 种 理解 线性 回归 
的 方法 是 ,定义 一 条 代表 观测 线 的 极 大 似 然 的 直线 ， 换 句 话 说 ， 就 是 在 给 定 x 值 的 情况 下 ， 求 最 
有 可 能 的 y 值 。 

人 们 有 时 候 将 线性 回归 称 为 极 大 似 然 估计 , 这 又 是 一 个 用 非常 炫 酷 的 名 词 来 表示 简单 概念 的 


例子 。 如 果 你 听 到 某 些 人 谈论 极 大 似 然 佑 计 ， 那 他 们 说 的 其 实 就 是 回归 。 他 们 只 是 想 装 酷 而 已 。 
知道 了 这 个 名 词 ， 你 也 可 以 装 一 下 了 。 






























































4.1.2 梯度 下 降 法 


线性 回归 的 方法 不 止 一 种 , 我 们 讨论 过 的 普通 最 小 二 乘法 是 用 直线 去 拟 合 数据 的 一 种 简单 方 
法 。 当 然 , 还 有 其 他 方法 ,梯度 下 降 就 是 其 中 之 一 ， 它 在 三 维 数据 上 的 效果 最 好 ， 试 图 为 你 描绘 
出 数据 的 轮廓 。 虽 然 这 种 方法 的 效果 非常 好 , 但 是 需要 更 多 的 计算 成 本 。 如 果 你 想 将 其 与 最 小 二 
乘法 比较 一 下 的 话 ， 可 以 使 用 Python 很 容易 地 实现 这 种 方法 。 









































0 在 处 理 3D 数据 时 ， 非 常 适合 使 用 梯度 下 降 法 。 



































一 般 说 来 , 最 小 二 乘法 是 进行 线性 回归 的 完美 选择 , 事实 也 是 如 此 。 但 如 果 你 学 习 了 梯度 下 
降 法 ， 就 会 知道 它 也 是 进行 线性 回归 的 一 种 方法 ， 而 且 经 常 使 用 在 高 维 数据 中 。 








4.1.3 ”判定 系数 或 r 方 

如 何 才能 知道 回归 的 效果 有 多 好 ? 我 们 的 直线 很 好 地 对 数据 进行 拟 合 了 吗 ? 这 时 就 要 使 用 7 
方 ， 也 称 判定 系数 。 同 样 ， 判 定 系数 的 叫 法 也 是 有 人 想 装 酷 ， 通 常 我 们 都 称 其 为 7 方 。 

r 方 表示 了 的 总 变异 中 被 模型 解释 的 部 分 。 你 的 直线 能 在 多 大 程度 上 解释 实际 发 生 的 变异 ? 
直线 两 侧 的 变异 在 数量 上 是 相等 还 是 不 相等 ?这 就 是 > 方 要 回答 的 问题 。 


























1. 计算 r 方 
要 实际 计算 > 方 的 值 ， 可 以 用 1 减 去 残 差 平 方 和 与 均值 差异 平方 和 的 比值 。 
I 残 差 平方 和 
” ”均值 差异 平方 和 

















所 以 ,计算 起 来 并 不 难 。Python 中 同样 有 计算 x 方 的 函数 ， 不 需要 你 亲自 去 计算 。 
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2. 解释 r 方 


r 方 的 值 在 0 和 1 之 间 。0 意味 着 拟 合 非常 糟糕 , 没有 捕获 到 数据 中 的 任何 变动 。1 则 意味 着 
拟 合 非常 完美 ， 拟 合 直线 可 以 捕获 数据 的 所 有 变动 ， 而 且 直 线 两 侧 的 变动 应 该 是 一 样 的 。 所 以 0 
是 不 好 的 ，1 是 好 的 ， 这 就 是 你 应 该 知道 的 。0 和 1 之 间 的 值 表示 拟 合 效果 处 在 好 与 坏 之 间 。r 方 
值 比较 低 说 明 拟 合 效果 不 好 ，z 方 值 较 高 说 明 拟 合 效果 很 好 。 


在 后 面 的 章节 中 你 将 看 到 ,回归 方法 不 止 一 种 ,线性 回归 只 是 其 中 之 一 。 线 性 回归 是 一 种 非 
常 简单 的 方法 ， 同 时 还 有 其 他 方法 ， 你 可 以 使 用 > 方 作为 测量 回归 效果 的 一 种 定量 手段 ， 还 可 以 
使 用 它 来 选择 对 数据 拟 合 效果 最 好 的 模型 。 











































































































4.1.4 使 用 Python 进行 线性 回归 并 计算 / 方 


下 面 我 们 实际 进行 一 下 线性 回归 , 并 计算 出 x 方 。 首先 创建 一 段 Python 代码 , 生成 一 些 随 机 
数据 ， 这 些 数据 实际 上 是 线性 相关 的 。 


下 面 例子 中 虚构 了 一 些 数据 ， 和 前 面 的 例子 一 样 ,这 些 数 据 是 关于 页 面 浑 染 速度 和 人 们 的 购 
物 金额 的 。 我 们 想 在 网 页 加 载 所 需 时 间 和 人 们 在 网 站 上 的 购物 金额 之 间 构 造 一 种 线性 关系 : 


smatplotlib inline 

import numpy as np 

from pylab import * 

pageSpeeds = np.random.normal (3.0, 1.0, 1000) 

purchaseAmount = 100 - (pageSpeeds + np.random.normal (0, 0.1, 
1000)) * 3 

scatter (pageSpeeds, purchaseAmount) 








这 里 使 用 一 个 正 态 随机 分 布 来 表示 网 页 显示 速度 , 它 的 均值 是 3 秒 , 标准 差 是 1 秒 。 我 们 将 
购物 金额 作为 它 的 线性 函数 。 因 此 ， 将 网 页 显示 速度 先 加 上 一 个 随机 分 布 的 值 ， 再 乘 以 3， 然 后 
用 100 减 去 它 ， 就 是 购物 金额 。 如 果 绘 制 出 散 点 图 ， 结 果 如 下 。 


























Out[5]: <matplotlib.collections.PathCollection at 8x8956c58> 
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仅 凭 肉眼 观察 就 可 以 知道 , 数据 之 间 存 在 着 明确 的 线性 关系 , 这 是 因为 在 源 数据 中 我 们 构造 
了 一 种 绝对 的 线性 关系 。 


下 面 看 看 是 否 能 用 普通 最 小 二 乘法 找 出 最 优 拟 合 直 线 。 我 们 已 经 知道 了 如 何 使 用 普通 最 小 二 
乘法 进行 线性 回归 ， 其 实 你 根本 不 需要 亲自 做 任何 数学 计算 ， 因 为 SciPy 包 中 有 一 个 stats 包 ， 
你 可 以 导入 这 个 包 : 

from scipy import stats 


slope, intercept, r_value, p_value, std err = 
stats.linregress (pageSpeeds, purchaseAmount 


你 可 以 从 scipy 包 中 导入 stats 包 , 然后 调用 stats.1inregress () 来 处 理 这 两 个 特征 。 
因此 ， 我 们 需要 两 个 列表 ， 一 个 是 页 面 载 人 速度 (pagespeeds ), 一 个 是 与 之 对 应 的 购物 金额 
(purchaseAmount )。1linregress () 函数 返回 的 内 容 非 常 丰富 ,包括 斜率 和 截 距 ， 这 是 确定 最 
优 拟 合 直 线 所 需 的 参数 。 它 还 会 返回 r_value, 我 们 可 以 从 中 得 到 > 方 的 值 , 度量 一 下 拟 合 的 质 
量 。 还 有 另外 两 个 指标 ， 随 后 会 介绍 ， 眼 下 我 们 只 需要 斜率 、 截 距 和 r_value。 下 面 先 来 看 看 
线性 回归 最 优 拟 合 : 


Eo 


结果 如 下 。 

































































Out[4]: 8.98984146847689425 














我 们 拟 合 出 的 直线 的 > 方 是 0.99， 几 乎 就 是 1.0。 这 说 明 我 们 得 到 了 一 个 非常 好 的 拟 合 ， 没 
什么 可 以 惊讶 的 ， 因 为 我 们 确切 地 知道 , 数据 中 的 确 存 在 线性 关系 。 尽管 如 此 ， 直 线 周围 还 是 有 
些 方差 的 , 我 们 的 直线 捕获 了 这 些 方差 。 直线 两 侧 的 方差 差不多 是 相等 的 ,这 是 件 好 事情 。 它 告 
诉 我 们 ， 数 据 中 确实 存在 线性 关系 ， 我 们 的 模型 对 数据 是 一 个 非常 好 的 拟 合 。 


下 面 绘制 出 这 条 直线 : 


Import matplotlib.pyplot as plt 

def predict (x): 

return slope * x + intercept 

fitLine = predict (pageSpeeds) 
plt.scatter (pageSpeeds, purchaseAmount) 
plt.plot (pageSpeeds, fitLine, c='r') 
plt.show!() 


上 述 代码 的 输出 结果 如 下 。 
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这 段 代码 定义 了 一 个 函数 ， 用 来 沿 着 数据 画 出 最 优 拟 合 直 线 。 这 里 使 用 了 Matplotlib 的 一 些 
高 级 特性 。x 轴 上 的 数据 是 pagespeeds， 我 们 写 了 一 个 函数 ,使 用 pagespeeds 作为 参数 ， 返 
回 一 个 列表 fitLine, 将 其 作为 y 轴 上 的 数据 。 我 们 不 使 用 观测 中 的 购物 金额 数据 , 而 是 使 用 预 
测 数据 ,预测 数据 是 用 slope 乘 以 x 再 加 上 intercept 计算 出 来 的 ，slope 和 intercept 都 
是 从 前 面 的 1inregress () 函数 中 得 到 的 。 和 前 面 一 样 ， 我 们 先 使 用 原始 数据 做 出 一 个 散 点 网 ， 
表示 出 原来 的 观测 。 然 后 使 用 根据 直线 公式 得 到 的 fitLine 作为 参数 ， 用 同一 个 pyplot 实例 
调用 plot 方法 。 最 后 ， 在 同一 个 图 中 显示 散 点 图 和 直线 ,结果 如 下 。 





















































从 上 图 可 知 , 我 们 的 直线 确实 是 对 数据 的 良好 拟 合 。 它 位 于 数据 的 正中 间 , 可 以 完美 地 预测 
新 值 。 如 果 给 定 一 个 新 的 页 面 载 入 速度 , 就 可 以 使 用 斜率 乘 以 页 面 载 和 速度 加 上 截 距 预 测 出 购物 
金额 。 就 是 这 样 ， 棒 极 了 ! 














4.1.5 线性 回归 练习 
是 动手 练习 的 时 候 了 。 试 着 将 测试 数据 中 的 随机 变动 增强 一 些 ， 看 看 有 什么 影响 。 请 记 住 ， 
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; 方 是 测量 拟 合 优 度 的 一 个 指标 ， 它 说 明了 模型 能 够 捕获 到 多 少 变动 ， 所 以 ， 当 随机 变动 增加 
时 …… 好 吧 ， 为 什么 不 自己 看 看 它 是 否 真 的 有 影响 呢 。 


这 就 是 线性 回归 ,一 个 非常 简单 的 概念 ， 即 使 用 一 组 观测 拟 合 出 一 条 直线 ,然后 使 用 这 条 直 
线 预测 未 知 的 值 。 为 什么 要 局 限 在 直线 上 呢 ? 我 们 还 可 以 进行 其 他 类 型 的 更 加 复杂 的 回归 ,下 面 
就 来 看 一 下 。 


4.2 多 项 式 回归 


前 面 已 经 介绍 了 线性 回归 ， 它 就 是 用 一 组 观测 拟 合 一 条 直线 。 多 项 式 回 归 是 我 们 的 下 一 个 
话题 ,也 就 是 用 高 阶 多 项 式 去 拟 合 数据 。 有 时 候 数 据 不 适合 用 直线 去 拟 合 ,所 以 就 用 到 了 多 项 式 
回归 。 


多 项 式 回归 是 更 普遍 的 一 种 回归 ， 为 什么 要 局 限 在 直线 上 呢 ? 数据 中 可 能 并 不 存在 线性 关 
系 ， 或许 某 种 曲线 更 能 拟 合 数据 ， 这 种 情况 非常 普遍 。 


是 所 有 的 关系 都 是 线性 的 ， 线 性 回归 只 是 各 种 回归 中 的 一 种 。 线 性 回归 直线 的 形式 是 
y= mx +b， 其 中 的 m 和 4 是 通过 普通 最 小 二 乘法 或 其 他 方法 得 到 的 。 这 只 是 一 阶 多 项 式 。 阶 就 
是 x 的 次 数 ， 所 以 y= mx+b 是 一 阶 多 项 式 。 


如 果 需 要 ， 可 以 使 用 二 阶 多 项 式 ， 它 的 形式 是 y= ac + bx +c。 如 果 使 用 二 阶 多 项 式 进行 回 
归 ， 就 应 该 找 出 a、b 和 c 的 值 。 还 可 以 使 用 三 阶 多 项 式 ， 它 的 形式 为 p= ax + bx”+cx+4d。 阶 
数 越 高 ， 表 示 的 曲线 越 复 杂 。 所 以 ， 随 着 x 次 数 的 升 高 ， 你 可 以 得 到 形状 更 复杂 的 曲线 ,表示 出 
更 复杂 的 关系 。 
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但 是 ， 并 不 是 次 数 越 高 越 好 。 通 常 ， 数 据 中 的 本 质 关 系 并 不 是 那么 复杂 ， 如 果 你 使 用 特别 高 
的 次 数 去 拟 合 数据 ， 就 会 导致 过 拟 合 ! 
一 定 要 当心 过 拟 合 ! 
如 果 不 必 要 ， 就 不 要 使 用 更 高 的 次 数 。 
外 先进 行 数据 可 视 化 ， 看 看 需要 使 用 多 复杂 的 曲线 。 
对 拟 合 结果 进行 可 视 化 ， 检 查 一 下 你 的 曲线 是 否 因 为 离 群 点 而 改变 了 形状 。 
高 7 方 值 只 能 说 明 曲 线 对 训练 数据 拟 合 得 很 好 ， 但 不 一 定 有 好 的 预测 效果 。 
如 果 数 据 很 分 散 , 方差 很 大 , 为 了 尽 可 能 地 拟 合 所 有 数据 ， 你 可 能 会 创建 一 条 奇形怪状 的 曲 
线 ， 但 实际 上 ， 它 根本 代表 不 了 数据 的 内 在 关系 ， 也 不 能 很 好 地 预测 新 的 值 。 
所 以 , 一 定 要 先 对 数据 进行 可 视 化 ， 考 虑 一 下 需要 多 么 复杂 的 曲线 。 你 可 以 使 用 x 方 来 度量 
拟 合 的 优 度 ,但 请 记 住 ,r 方 只 能 表示 对 训练 数据 拟 合 的 有 多 好 ， 训 练 数据 就 是 你 进行 预测 时 所 
基于 的 数据 。r 方 并 不 能 度量 预测 新 值 的 能 
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稍 后 ， 我 们 会 介绍 一 种 预防 过 拟 合 的 方法 ， 称 为 训练 /测试 。 现 在 ， 你 只 需 用 肉眼 看 一 下 ， 
确定 没有 过 拟 合 ， 并 去 掉 不 必要 的 次 数 。 通 过 一 个 例子 ,你 可 以 对 此 理解 得 更 加 深入 ， 下 面 来 看 
这 个 例子 。 




















4.2.1 ”使 用 NumpPy 实现 多 项 式 回归 


幸运 的 是 ，NumPy 中 有 个 ployfit 了 为数， 可 以 非常 容易 地 实现 多 项 式 回 归 。 多 项 式 回归 非 
常 有 趣 ， 看 到 高 中 数学 成 为 实际 应 用 ， 是 多 么 有 意思 的 一 件 事 。 打 开 PolynomialRegression.ipynb 
文件 ， 我 们 一 起 练习 。 


在 虚构 的 页 面 载 人 速度 和 购物 金额 数据 中 建立 一 种 新 的 关系 ， 这 是 一 种 更 复杂 的 非 线性 关 
系 。 令 购物 金额 等 于 某 个 函数 除 以 页 面 载 人 速度 : 


smatplotlib inline 

from pylab import * 

np.random.seed (2) 

pageSpeeds = np.random.normal (3.0, 1. 
purchaseAmount = np.random.normal (50. 
scatter(pageSpeeds, purchaseAmount) 






































1000) 


0, 
0, 10.0, 1000) / pageSpeeds 

















如 果 做 出 散 点 图 ， 就 应 该 是 下 面 这 个 样子 。 
Out[1]: <matplotlib.collections.PathCollection at 8@x7d8bef8> 
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顺便 说 一 句 ， 如 果 你 想 知 道 np .random. seed 这 行 代码 的 意义 ， 那 么 它 的 作用 就 是 创建 一 
个 随机 数 种 子 , 这 意味 着 后 面 的 随机 操作 都 是 确定 的 。 这 样 可 以 确保 每 次 运行 这 段 代码 时 都 能 得 
到 同样 的 结果 。 这 对 后 面 的 内 容 将 非常 重要 ， 因 为 我 会 建议 你 回 过 头 来 , 试验 一 些 对 数据 的 不 同 
拟 合 ， 并 与 你 的 拟 合 进 行 比较 。 所 以 ， 从 同样 的 初始 数据 开始 是 非常 重要 的 。 

从 图 中 可 以 看 出 , 数据 中 没有 线性 关系 。 可 以 试 着 拟 合 一 条 直线 ,这 条 直线 对 于 大 多 数 数 据 


点 还 可 以 , 它 比 较 接 近 于 图 形 右 侧 的 数据 点 ,但 对 于 左 侧 的 数据 点 ， 就 差 得 比较 远 了 。 我 们 应 该 
使 用 一 条 指数 曲线 。 
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NumpPy 中 有 一 个 polyfit () 函数 ， 人 允许 你 用 任意 阶 数 的 多 项 式 去 拟 合 数据 。 例 如 ， 可 以 将 
页 面 载 入 速度 (pageSpeeds ) 数组 作为 x 轴 ， 将 购物 金额 (purchaseaAmount ) 数组 作为 y 轴 ， 
然后 调用 np .polyfit (xx，Yy，4) ， 使 用 四 阶 多 项 式 来 拟 合 数据 。 





区 np.array (pageSpeeds) 
y np.array (purchaseAmount) 
p4 = np.polyld(np.polyfit (x, y, 4) 


运行 这 段 代 码 , 它 的 速度 非常 快 , 我 们 可 以 将 其 绘制 出 来 。 我 们 将 创建 一 张 简单 的 图 形 , 使 
用 原始 数据 绘制 出 散 点 图 ， 再 绘制 出 预测 值 。 


import matplotlib.pyplot as plt 
xp = np.linspace(0, 7, 100) 
plt.scatter (x, y) 

plt.plot (xp, p4(xp), c='r') 
plt.show!() 


生成 的 图 形 如 下 。 
































似乎 是 个 相当 好 的 拟 合 ,但 是 你 还 要 拉 心 自问 :“ 是 否 存在 过 拟 合 ?曲线 是 否 为 了 拟 合 离 群 
点 而 被 带 偏 了 ? ”我 们 发 现 没 有 这 种 情况 ,一切 都 还 正常 。 

如 果 使 用 了 高 阶 多 项 式 来 拟 合 数 据 ， 为 了 拟 合 一 个 离 群 点 , 它 可 能 会 一 下 子 升 得 很 高 , 然后 
又 突然 降低 去 拟 合 男 一 个 离 群 点 。 在 数据 密集 的 地 方 , 它 会 很 平稳 , 但 是 又 可 能 震荡 得 非常 厉害 ， 
去 拟 合 数 据 未 端的 几 个 离 群 点 。 如 果 你 看 到 这 种 荒唐 的 事情 ， 就 应 该 知道 多 项 式 的 阶 数 过 高 了 ， 
应 该 降低 阶 数 。 尽 管 高 阶 多 项 式 对 观测 数据 拟 合 得 很 好 ， 但 预测 未 知 数据 的 效果 并 不 好 。 

想象 一 下 ,如 果 我 们 的 曲线 为 了 拟 合 离 群 点 ， 上 上 下 下 震 落 得 很 厉害 , 那么 对 未 知 值 的 预测 
就 不 会 很 精确 。 曲 线 应 该 很 中 庸 。 本 书 在 后 面 内 容 中 将 会 讨论 检测 过 拟 合 的 方法 ,眼下 只 要 用 肉 
腿 观察 一 下 就 可 以 了 。 
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4.2.2 计算 r 方 误差 
下 面 我 们 可 以 计算 + 方 误差 。 在 sklearn.metrics 包 中 ， 有 个 r2_score() 子 数 , 使 用 y 
和 p4 (x) 作为 参数 ， 就 可 以 计算 出 > 方 误差 。 


from sklearn.metrics import r2_score 
r2 = r2_scorel(ly, p4(x)) 
DEint Y2 


结果 如 下 。 





8.82937663963 











代码 比较 一 组 观测 值 和 一 组 预测 值 就 可 以 计算 出 x 方 ， 而 且 仪 需 一 行 ! 这 个 例子 的 > 方 是 
0.829， 也 还 不 错 。 请 记 住 ，0 最 差 ，! 最 好 ，0.82 相当 接近 于 1， 显 然 不 是 很 完美 ， 但 已 经 可 以 
了 。 可 以 看 出 , 曲线 在 数据 的 中 段 表现 相当 好 , 在 数据 的 最 左 侧 和 最 右 侧 则 不 那么 好 。 所 以 , 0.82 
应 该 是 个 正确 的 值 。 








4.2.3 多项式 回归 练习 


我 建议 你 自己 动手 练习 一 下 这 部 分 内 容 , 试 试 不 同 阶 数 的 多 项 式 。 回 到 之 前 运行 polyfit () 
函数 的 地 方 , 试 试 除 了 4 之 外 的 值 。 你 可 以 使 用 1, 这 将 回 到 线性 回归 , 也 可 以 试 试 比 较 大 的 值 ， 








比如 8， 这 时 你 可 能 会 发 现 过 拟 合 。 试 试 各 种 不 同 的 值 ， 然 后 看 看 效果 。 例 如 ， 下 面 来 试 一 下 三 
阶 多 项 式 。 


x np.array (pageSpeeds) 
y np.array (purchaseAmount) 
p4 = np.polyld (np.polyfit (x, y, 3)) 


然后 按照 原来 的 步 又 做 下 去 ， 可 以 得 到 以 下 图 形 。 
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三 阶 多 项 式 的 拟 合 效果 不 如 四 阶 多 项 式 好 。 如 果 你 计算 出 x 方 误 差 . 这 个 值 也 会 比较 差 。 但 
如 果 多 项 式 阶 数 过 高 ， 就 会 出 现 过 拟 合 。 所 以 一 定 要 试 试 各 种 值 ， 对 回归 需要 多 大 的 多 项 式 阶 数 
有 个 感觉 。 动 手 去 做 吧 ， 肯 定 会 有 所 收获 。 


这 就 是 多 项 式 回归 。 再 说 一 次 , 你 要 确保 不 使 用 过 高 的 阶 数 , 而 使 用 直觉 上 适合 数据 的 阶 数 。 
阶 数 过 高 会 导致 过 拟 合 ， 阶 数 过 低 则 会 使 拟 合 的 效果 很 糟糕 。 所 以 , 眼下 你 可 以 通过 肉眼 观察 并 
结合 7 方 这 个 指标 ， 来 找 出 适合 数据 的 正确 阶 数 。 下 面 我 们 继续 。 


4.3 多 元 回归 和 汽车 价格 预测 


如 果 想 基于 多 个 属性 来 预测 未 知 值 , 应 该 怎么 做 呢 ? 假设 人 的 身高 不 仅 依赖 于 体重 , 还 依赖 
于 遗传 基因 或 其 他 因素 ， 这 时 就 需要 使 用 多 元 回归 。 你 可 以 建立 一 个 回归 模型 ， 同 时 接受 多 个 参 
数 。 使 用 Python 可 以 非常 容易 地 实现 多 元 回归 。 


多 元 回归 是 更 复杂 的 回归 。 多 元 回归 要 解决 的 问题 是 ， 当 影响 预测 值 的 因素 多 于 一 个 时 , 应 
当 如 何 去 做 。 


在 前 面 的 例子 中 , 我 们 介绍 了 线性 回归 ,基于 人 的 体重 来 预测 身高 。 假 设 了 体重 是 影响 身高 
的 唯一 因素 , 但 是 ,还 可 能 有 其 他 因素 。 我 们 还 研究 了 页 面 载 人 速度 对 购物 金额 的 影响 。 也 许 除 
了 页 面 载 人 速度 之 外 , 还 有 更 多 能 影响 购物 金额 的 因素 。 我 们 想 知 道 这 些 不 同 因素 组 合 在 一 起 是 
如 何 影 响 预测 值 的 ， 这 时 就 需要 使 用 多 元 回归 。 


来 看 一 个 例子 。 假 设 我 们 想 预 测 一 下 汽车 的 价格 , 这 个 价格 可 能 由 汽车 的 多 个 特征 决定 ， 比 
如 车 身 风 格 、 品 牌 、 里 程 数 ， 甚 至 是 轮胎 的 质量 ， 等 等 。 在 预测 汽车 价格 时 ， 有 些 特征 比 其 他 特 
征 更 为 重要 ， 但 你 必须 同时 考虑 所 有 特征 。 


这 里 进行 多 元 回归 的 方法 仍然 是 使 用 最 小 二 乘法 对 观测 集合 拟 合 一 个 模型 , 与 前 面 的 区 别 在 
于 ， 我 们 要 得 到 多 个 系数 ， 每 个 特征 都 要 有 一 个 系数 。 

所 以 ， 举 例 来 说 ， 最 后 的 价格 模型 应 该 是 个 线性 组 合 ， 它 是 由 一 个 类 似 于 截 距 的 常数 项 w， 
加 上 里 程 数 及 其 系数 ， 加 上 车 龄 及 其 系数 ， 再 加 上 车 门 数 及 其 系数 组 成 的 。 

price =a+pmileage + p,age + Pp,doors 

一 旦 使 用 最 小 二 乘 分 析 得 到 了 这 些 系 数 ， 就 可 以 根据 系数 得 出 每 个 特征 对 于 模型 的 重要 性 。 
例如 ,如果 车 门 数 的 系数 非常 小 ， 这 就 说 明 车 门 数 不 是 那么 重要 ,为 了 使 模型 更 加 简洁 ， 可 以 将 
其 从 模型 中 去 掉 。 

本 书 中 ， 我 将 不 止 一 次 强调 ， 在 数据 科学 中 ， 简 洁 总 是 非常 重要 的 ， 不 要 使 模型 过 于 复杂 ， 
因为 通常 简单 的 模型 效果 更 好 。 如 果 你 使 模型 达到 了 恰如其分 的 复杂 度 ， 而 不 是 更 高 ,那么 通常 
来 说 ， 这 就 是 正确 的 模型 。 总 之 ,根据 这 些 系数 ， 你 可 以 这 样 阅 :“ 有 些 特 征 比 其 他 特征 更 重要 ， 
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也 许可 以 在 模型 中 除去 某 些 因素 。 


我 们 仍然 可 以 使 用 x 方 来 度量 多 元 回归 拟 合 的 质量 , 原理 是 一 样 的 , 但 是 在 多 元 回归 中 有 个 
假定 ， 即 各 个 特征 彼此 之 间 是 不 相关 的 。 这 个 假定 有 时 是 不 满足 的 ， 所 以 一 定 要 注意 。 例 如, 在 
上 面 的 模型 中 ， 假定 的 是 里 程 数 和 车 龄 不 相关 , 但 实际 上 它们 可 能 紧密 相关 ! 这 就 是 多 元 回归 的 
局 限 性 ,但 有 时 也 没什么 影响 。 








4.3.1 使 用 Python 进行 多 元 回归 


滁 好 ，Python 中 有 一 个 statsmodel 包 ， 可 以 非常 容易 地 实现 多 元 回归 。 下 面 使 用 Python 
进行 多 元 回归 ， 来 看 看 如 何 使 用 这 个 包 。 我 们 使 用 的 是 来 自 于 Kelley Blue Book 的 关于 汽车 估 值 
的 真实 数据 。 


import pandas as pd 
df = pd.read excel('http://cdn.sundog-soft.com/Udemy/DataScience/cars.xls') 


这 里 引入 了 一 个 新 的 包 ， 名 为 pandas， 它 可 以 让 我 们 非常 容易 地 处 理 表 格 数 据 。 它 可 以 读 入 表 
格 数据 ， 并 对 其 进行 各 种 形式 的 重新 排列 、 修 改 、 切 片 和 切 丁 。 后 面 我 们 会 经 常用 到 这 个 包 。 


将 pandas 导入 为 ba, pd 中 有 个 reagd_Excel () 限 数 , 可 以 从 HTTP 网 页 中 读 取 Microsoft 
Excel 电子 表格 。 所 以 ，pandas 的 功能 是 非常 强大 的 。 


将 这 个 Excel 电子 表格 文件 读 取 到 本 地 ， 如 果 运 行 上 面 的 代码 ， 它 会 将 数据 加 载 到 一 个 
DataFrame 对 象 ， 我 们 将 这 个 对 象 命名 为 af。 然 后 对 这 个 数据 框 调用 head () 函数 ， 看 看 它 的 
前 几 行 数据 : 


df.head() 


上 述 代码 的 输出 结果 如 下 。 

















Out[2]: 


Price Mileage | Make | Model | Trim Type |Cylinder |Liter | Doors | Cruise | Sound | Leather 


日 17314.103129 | 8221 Buick | Century | Sedan 4D | Sedan i 





17542.036083 | 9135 Buick | Century | Sedan 4D | Sedan 3.1 
16218.847862 |13196 |Buick | Century | Sedan 4D | Sedan 3.1 
3 | 16336 913140 |16342 | Buick | Century [Sedan 4D | Sedan mc 


4|16339.170324|19832 |Buick | Century | Sedan 4D |Sedan|6 















































实际 数据 集 要 大 得 多 , 这 只 是 前 面 的 几 条 。 这 是 真实 的 数据 , 其 中 的 特征 有 里 程 数 、 制造 商 、 
| 外 子 巡 航 、 音 响 、 真 皮 座 椅 ， 等 等 。 


好 了 ,现在 要 使 用 pangas 将 我 们 关心 的 特征 分 离 出 来 。 我 们 将 基于 里 程 数 、 型 号 和 车 门 数 
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来 构造 模型 去 预测 汽车 价格 ， 其 他 特征 都 不 用 了 。 


import statsmodels.api as sm 


df['Model_ord'] = pd.Categorical (df.Model) .codes 
xX = df[['Mileage', 'Model_ ord', 'Doors']] 
y = df[['Price']] 


X1 = sm.add_constant (xX) 
est = Sm.OLS(y，X1L) .fit() 


est.summary () 


现在 有 一 个 问题 ， 即 型 号 是 文本 型 数据 ， 比 如 Buick 车 的 Century 型 号 。 你 可 以 回忆 一 下 ， 
在 进行 这 类 分 析 时 ， 所 有 特征 都 应 该 是 数值 型 的 。 在 代码 中 ， 我 们 使 用 pangas 中 的 
categorical () 函数 将 数据 框 中 的 型 号 数据 转换 成 了 一 组 数值 ， 也 就 是 一 组 编码 。 模 型 在 x 轴 
上 的 输入 是 里 程 数 ( Mi1eage )、 转 换 为 定 序数 据 的 型 号 ( Model_ord ) 和 车 门 数 (Doors )。 在 4 
y 轴 上 要 预测 的 值 是 价格 (Price 


接 下 来 的 两 行 代码 使 用 普通 最 小 二 乘法 ( OLS ) 创建 了 一 个 模型 est ， 并 使 用 Mileage、 
Model_ord 和 Doors 进行 拟 合 。 然 后 调用 summary 方法 打印 出 模型 
























































Out[3] : 


OLS Regression Results 








Dep. Variable: R-squared : 








Model: 0.038 





Adj. R-squared: 





Method: 










Least Squares |F-statistic: 11.57 





Date: Tue. 26 Jan 2016 | Prob (F-statistic): | 1.98e-07 
Log-Likelihood: 


No. Observations: 1.705e+04 























Df Residuals: 800 BIC: 1.706e+04 
Df Model: 3 
Covariance Type: | nonrobust 





coef std err P>It| | [95.0% Conf Int.] 


const 3.125e+04 | 1809.549 | 17.272 | 0.000 | 2.77e+04 3.48e+04 


Mileage -0.1765 0.042 -4.227 | 0.000 | -0.259 -0.095 








Model _ord | -39.0387 |39.326 -0.993 | 0.321 |-116.234 38.157 | 





Doors -1652.9303 | 402.649 |-4.105 | 0.000 | -2443.303 -862.558 | 








Omnibus: |206.410 Durbin-Watson: |ooso 





Prob(Omnibus): | 0.000 “| Jarque-Bera (JB): | 470.872 


Skew: 1.379 |Prob(JB): 5.64e-103 


Kurtosis: 5.541 Cond. No. 1.15e+05 
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可 以 看 出 , x 方 值 非常 小 。 这 不 是 个 好 模型 ,但 从 各 种 误差 中 我 们 可 以 得 到 一 些 信 息 ， 有 趣 
的 是 ， 里 程 数 的 标准 误差 是 最 小 的 。 


以 前 我 说 过 , 可 以 根据 系数 确定 哪个 特征 更 加 重要 , 但 这 只 有 在 输入 数据 标准 化 之 后 才 是 正 
确 的 ,也 就 是 说 ,所 有 特征 的 值 都 在 0 和 1 之 间 。 如 果 不 是 , 那么 这 些 系数 就 是 对 数据 尺度 的 一 
种 修正 。 如 果 你 使 用 的 不 是 标准 化 的 数据 , 就 像 这 个 例子 一 样 , 那么 检查 标准 误差 是 更 加 有 用 的 。 
在 这 个 例子 中 可 以 看 到 , 里 程 数 是 这 个 模型 中 最 重要 的 特征 。 以 前 发 现 过 这 个 问题 吗 ? 我 们 可 以 
通过 切片 和 切 丁 操作 ， 发 现 车 门 数 实 际 上 对 价格 的 影响 并 不 大 。 来 看 下 面 的 代码 : 


y.groupby (df .Doors) .mean () 


这 行 代码 使 用 的 是 pandas 语法 ， 一行 Python 代码 就 可 以 完成 这 个 操作 ， 非 常 棒 ! 这 行 代 
码 会 输出 一 个 新 数据 框 ， 表 示 出 按 车 门 数 分 类 的 平均 价格 。 
































































|2 |23807.135520 
[4 |20580.670749 


可 以 看 出 ,两 门 车 的 平均 售 价 比 四 门 车 要 高 。 如 果 车 门 数 和 价格 之 间 存 在 负 相 关 ，, 那 真是 挺 
令 人 惊讶 的 。 这 是 个 小 数据 集 ， 不 能 谨 明 什么 问题 。 





























4.3.2 ”多 元 回归 练习 


作为 练习 , 你 可 以 随意 使 用 虚构 的 输入 数据 。 可 以 先 将 数据 下 载 下 来 ,然后 随意 修改 电子 表 
格 。 从 你 的 本 地 硬盘 上 读 取 数据 ,不 用 再 从 HTTP 网 页 上 上 下载。 看 看 能 得 到 什么 不 同 的 结果 。 或 
许 你 可 以 构造 出 一 个 具有 不 同行 为 的 数据 集 , 并 用 更 好 的 模型 来 拟 合 它 。 或 许 你 能 更 聪明 地 选择 
特征 来 构建 模型 。 尽 情 去 试验 吧 。 

这 就 是 多 元 分 析 以 及 使 用 多 元 分 析 的 一 个 实例 。 和 多 元 分 析 概 念 一 样 重要 的 是 我 们 在 Python 
Notebook 中 提供 的 内 容 ， 你 应 该 好 好 去 研究 一 下 。 

我 们 引入 了 pandas 包 ， 并 介绍 了 pandas 和 数据 框 对 象 的 使 用 方法 。pandas 是 一 个 非常 强大 
的 工具 ， 后 面 的 章节 中 我 们 会 经 常用 到 。 因 为 这 些 都 是 非常 重要 的 Python 技能 ， 可 以 帮助 你 管 
理 和 组 织 大 量 数据 ， 所 以 一 定 要 好 好 学 习 。 






























































4.4 ”多 水 平 模型 


现在 应 该 讨论 一 下 多 水 平 模型 ,这 显然 是 个 比较 高 级 的 话题 , 我 们 不 会 介绍 得 非常 详细 。 本 
节 的 目标 是 介绍 多 水 平 模型 的 概念 ， 并 让 你 清楚 其 中 的 一 些 问 题 ， 以 及 如 何 同时 考虑 这 些 问 题 。 
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多 水 平 模型 就 是 在 模型 层次 结构 的 不 同 水 平 中 会 产生 各 种 不 同 的 效应 。 以 你 的 健康 水 平 为 
例 。 你 的 健康 水 平 依赖 于 各 个 细胞 的 健康 水 平 , 而 细胞 的 健康 水 平 依赖 于 其 所 在 带 官 的 健康 水 平 ， 
器 官 的 健康 水 平 又 依赖 于 整个 身体 的 健康 水 平 。 你 的 健康 水 平 还 部 分 依赖 于 家 族 健康 水 平和 家 族 
环境 。 家 族 健康 水 平 依赖 于 其 所 在 的 城市 ， 以 及 城市 的 犯罪 、 压 力 和 污染 情况 。 除 此 之 外 ,你 的 
健康 水 平 甚至 还 依赖 于 我 们 所 在 的 整个 世界 。 当 前 世界 的 医疗 技术 水 平 就 可 能 是 个 影响 因素 , 不 
是 吗 ? 


再 以 你 的 财富 为 例 。 你 能 够 赚 多 少 钱 ” 个 人 努力 显然 是 个 相关 因素 , 但 你 的 父母 同样 也 是 个 
相关 因素 。 他 们 在 你 的 教育 以 及 成 长 环境 中 投入 了 多 少 金 钱 ? 相 应 地 , 还 有 你 的 祖父 母 , 他 们 为 
你 的 父母 创造 了 什么 样 的 成 长 环境 , 提供 了 什么 样 的 教育 资源 ? 这 些 因 素 都 会 依次 影响 你 所 能 得 
到 的 教育 资源 和 成 长 环境 。 


这 些 都 是 多 水 平 模型 的 例子 , 它们 的 层次 效应 可 以 在 越 来 越 大 的 规模 上 互相 影响 。 多 水 平 模 
型 要 解决 的 问题 就 是 :“ 如 何 对 这 些 相互 影响 进行 建 模 ? 如 何 对 所 有 效应 进行 建 模 ? 这 些 效应 是 
如 何 互 相 影 响 的 ? ” 


多 水 平 模型 的 主要 困难 是 如 何 识别 出 每 个 水 平 中 能 确实 影响 预测 值 的 因素 。 例 如 ,如果 想 预 

测 SAT 整体 分 数 ， 这 应 该 部 分 依赖 于 参加 考试 的 每 个 孩子 ， 但 每 个 孩子 的 影响 因素 呢 ? 可 能 是 
遗传 基因 ,可 能 是 个 体 健康 水 平 , 或 每 个 孩子 的 大 脑 尺寸 。 你 可 以 想 出 任意 多 个 能 够 影响 个 人 进 
影响 SAT 分 数 的 因素 。 我 们 再 上 升 到 另 一 个 水 平 ， 看 看 他 们 的 家 庭 环 境 是 如 何 影响 SAT 分 数 
的 。 家 庭 能 给 孩子 提供 多 少 教 育 资源 ” 父 母 能 够 指导 孩子 进行 各 种 SAT 考试 吗 ? 这 些 可 能 就 是 
在 第 二 个 水 平 上 的 重要 因素 。 那 他 们 的 社区 环境 呢 ? 社区 的 犯罪 率 或 许 是 很 重要 的 , 还 有 社区 为 
青少年 提供 的 各 种 使 他 们 远离 街道 的 设施 ， 诸 如 此 类 。 


重点 在 于 , 要 持续 关注 这 些 较 高 的 水 平 ， 并 识别 出 每 个 水 平 上 能 够 影响 预测 的 因素 。 可 以 持 
续 关 注 学 校 的 教师 质量 、 校 区 的 基金 ， 以 及 州 水 平 上 的 教育 政策 。 你 可 以 看 到 ， 在 不 同 的 水 平 上 
都 有 不 同 的 因素 可 以 影响 预测 ， 而 且 有 些 因素 会 存在 于 不 止 一 个 水 平 上 。 例 如 , 犯罪 率 在 地 区 和 
州 的 水 平 上 都 存在 。 在 进行 多 水 平 建 模 时 ， 你 需要 搞 清楚 这 些 因素 是 如 何 相互 影响 的 。 


和 你 想 的 一 样 , 多 水 平 建 模 的 难度 和 复杂 度 会 急剧 增加 。 它 其 实 已 经 超出 了 本 书 或 任何 一 本 
数据 科学 导论 书 的 范围 。 这 是 非常 困难 的 一 项 工作 。 有 很 多 关于 它 的 大 部 头 书 , 你 可 以 读 其 中 的 
一 本 来 仔细 了 解 这 个 高 级 话题 。 

本 书 为 什么 要 提 及 多 水 平 模型 呢 ?” 因 为 我 看 到 一 些 工 作 描述 中 提 到 了 它 , 这 些 工作 需要 你 
得 多 水 平 建 模 。 我 在 实际 工作 中 没有 用 过 多 水 平 建 模 , 但 我 认为 从 数据 科学 求职 的 角度 来 说 ， 
要 的 是 至 少 要 熟悉 多 水 平 建 模 的 概念 ,并 知道 它 的 意义 和 建 模 过 程 中 会 出 现 的 一 些 难题 。 希望 
已 经 了 解 了 这 些 知 识 。 


这 就 是 多 水 平 模型 的 概念 , 它 属于 非常 高 级 的 话题 , 但 你 至 少 应 该 有 所 了 解 ， 概念 本 身 是 非 
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常 简 单 的 。 当 你 进行 预测 时 ， 需 要 考虑 不 同 水 平 、 不 同 层次 的 效应 。 因 此 , 不同 层 次 的 效应 可 能 
是 互相 影响 的 , 不 同 层次 中 可 能 会 有 相互 作用 的 因素 。 多 水 平 建 模 试图 考虑 所 有 不 同 的 层次 和 因 
素 ， 以 及 它们 之 间 是 如 何 相 互 作用 的 。 眼 下 ， 你 只 需 知 道 这 些 就 可 以 了 。 




















4.5 小结 

本 章 首 先 讨论 了 回归 分 析 , 它 是 使 用 训练 集 数据 拟 合 出 一 条 曲线 ,再 使 用 这 条 曲线 预测 新 的 
值 。 我 们 介绍 了 回归 分 析 的 不 同形 式 、 线 性 回归 的 概念 以 及 在 Python 中 实现 线性 回归 的 方法 。 

接 下 来 学 习 了 多 项 式 回 归 , 它 面向 多 维 数据 ,使 用 高 阶 多 项 式 拟 合 出 效果 更 好 、 形 式 更 复杂 
的 曲线 。 我 们 也 介绍 了 在 Python 中 实现 多 项 式 回 归 的 方法 。 

然后 又 讨论 了 多 元 回归 ,， 它 稍稍 有 些 复杂 。 当 有 多 个 因素 影响 要 预测 的 数据 时 ， 要 使 用 多 元 
回归 , 书 中 介绍 了 它 的 用 法 。 还 给 出 了 一 个 有 趣 的 例子 ,使 用 Python 和 一 个 非常 强大 的 工具 pandas 
来 预测 汽车 价格 。 

最 后 介绍 了 多 水 平 模型 的 概念 。 我 们 了 解 了 多 水 平 建 模 中 的 一 些 困 难 , 以 及 同时 考虑 多 个 水 
平和 层次 时 的 一 些 思 路 。 下 一 章 将 学 习 使 用 Python 进行 机 器 学 习 的 技术 。 









































使 用 Python 进行 机 器 学 习 








本 章 将 介绍 机 器 学 习 和 在 Python 中 如 何 实现 机 器 学 习 模 型 。 


我 们 首先 会 介绍 监督 式 学 习 和 非 监督 式 学 习 的 概念 以 及 它们 之 间 的 区 别 。 然 后 会 介绍 防止 过 
拟 合 的 技术 ,进而 给 出 一 个 有 趣 的 例子 ,实现 一 个 垃圾 邮件 分 类 器 。 接 下 来 会 分 析 均值 聚 类 的 





方法 ， 并 给 出 一 个 实际 例子 ， 使 用 scikit-learn 基于 收入 和 年 龄 对 人 进行 聚 类 。 


我 们 还 会 介绍 一 个 相当 有 趣 的 机 器 学 习 应 用 ， 称 为 决策 树 ， 我 们 要 在 Python 中 建立 一 个 决 


策 树 实例 , 用 来 预测 公司 决策 。 最 后 会 介绍 集成 学 习 和 支持 向 量 机 (SVM ) 这 些 引人入胜 的 
它们 是 我 最 喜欢 的 机 器 学 习 领 域 。 


更 具体 地 说 ， 本 章 将 介绍 以 下 内 容 : 


口 监督 式 学习 与 非 监 督 式 学 习 ; 

口 使 用 训练 /测试 方法 避免 过 拟 合 ; 

口 贝 叶 斯 方法 ; 

D 使 用 朴素 贝 叶 斯 方法 实现 一 个 垃圾 邮件 分 类 器 ; 
口 £ 均 值 聚 类 的 概念 ; 

口 Python 中 的 聚 类 实例 ; 

口 炉 及 信 的 度量 ; 

口 决策 树 概 念 以 及 Python 实例 ; 

口 什么 是 集成 学 习 ; 

口 支持 向 量 机 以 及 scikit-leam 实例 。 






































5.1 机 器 学 习 及 训练 /测试 法 























概念 5 





什么 是 机 咒 学 习 ? 如果 你 在 维基 百科 或 别 的 什么 地 方 搜 一 下 , 就 会 知道 它 是 一 组 能 够 从 观测 











数据 中 学 习 并 可 以 在 此 基础 上 进行 预测 的 算法 。 听 起 来 很 令 人 神往 ,不 是 吗 ? 它 就 像 是 人 工 
就 像 是 计算 机 中 有 一 个 活动 的 大 脑 。 但 实际 上 ， 这 些 技术 通常 都 十 分 简单 。 









































全 
智能 ， 


106 第 5 章 使 用 Python 进行 机 器 学 习 





我 们 已 经 学 习 了 回归 , 即 通过 一 组 观测 数据 , 拟 合 出 一 条 直线 , 并 使 用 这 条 直线 进行 了 预测 。 
所 以 ， 根 据 上 面 的 定义 ， 回 归 就 是 机 器 学 习 ! 你 的 大 脑 就 是 这 样 工作 的 。 

机 融 学 习 中 的 另 一 个 基础 概念 是 训练 /测试 法 ， 它 可 以 让 我 们 巧妙 地 评价 机 器 学 习 横 型 的 性 
能 。 当 介绍 监督 式 学 习 和 非 监督 式 学 习 时 , 你 就 能 知道 为 什么 训练 /测试 法 对 机 需 学 习 如 此 重要 了 。 














5.1.1 非 监 督 式 学 习 

下 面 将 详细 讨论 两 种 不 同类 型 的 机 器 学 习 : 监督 式 学 习 与 非 监督 式 学 习 。 有 时 候 这 两 种 学 习 
之 间 的 界限 并 不 明显 , 非 监督 式 学 习 的 基本 定义 是 不 会 给 学 习 设 定 任何 目标 ,只 是 使 用 机 器 学 习 
算法 去 处 理 一 组 数据 ， 在 没有 附加 信息 的 情况 下 从 数据 中 得 出 一 些 有 用 的 结论 。 

假设 我 们 有 一 些 不 同 的 物体 ， 比 如 球 、 立 方 体 和 山子 。 然 后 ,可 以 使 用 某 种 算法 基于 某 种 相 
似 度 指标 将 这 些 物 体 聚 集 为 几 个 分 类 ， 分 类 中 的 物体 彼此 之 间 都 是 相似 的 。 












































我 们 事先 没有 告诉 机 器 学 习 算 法 某 个 特定 的 物体 属于 哪个 类 别 ， 也 没有 一 个 将 一 些 物体 进 
行 了 正确 分 类 的 可 供 学 习 的 说 明 书 。 机 器 学 习 算 法 必须 自己 推断 出 这 些 分 类 。 这 就 是 非 监 督 式 
学 习 的 一 个 例子 , 其 中 没有 可 供 学 习 的 参考 管 案 , 只 能 让 算法 基于 提供 给 它 的 数据 推断 出 自己 的 
答案 


口外 o 


非 监 督 式 学 习 的 问题 是 我 们 不 一 定 知道 算法 会 得 出 什么 结果 ! 如 果 为 算法 提供 了 像 前 面 图 片 
中 那样 的 一 些 物体 ， 它 可 能 会 按照 物体 是 否 是 圆 形 进 行 分 类 ， 也 可 能 按照 物体 的 大 小 进行 分 类 ， 
或 者 按照 物体 是 红色 还 是 蓝 色 进行 分 类 , 我 们 不 知道 最 后 的 结果 是 什么 。 这 取决 于 设 定 的 相似 度 
指标 。 有 时 候 ， 你 会 发 现 一 些 奇怪 的 复 ， 最 后 的 结果 也 很 出 人 意料 。 


这 就 是 非 监督 式 学习 的 意义 : 如 果 你 不 清楚 想 要 的 结果 , 那么 这 就 是 一 种 强大 的 工具 ,可 以 
发 现 未 知 的 分 类 。 我 们 称 其 为 隐 变 量 。 有 些 你 原来 根本 不 清楚 的 数据 性 质 ,， 可 以 通过 非 监督 式 学 
习 呈 现 出 来 。 


再 来 看 一 个 非 监督 式 学 习 的 例子 。 假 设 我 们 要 聚集 的 是 人 ， 而 不 是 球 和 货 子 。 我 正在 运营 一 
个 交友 网 站 , 想 知道 哪些 人 可 能 会 聚集 在 一 起 。 有 些 特 性 可 以 用 来 对 人 进行 聚集 ， 这 些 特性 可 以 
确定 人 们 是 否 相互 喜欢 并 进行 约会 。 你 或 许 会 发 现 ,人们 自发 形成 的 聚集 会 和 你 的 预想 相去 甚 远 。 
可 能 并 不 会 形成 大 学 生 和 中 年 人 、 离 婚 者 与 未 离婚 者 ， 或 按 宗 教 信仰 划分 的 聚集 。 如 果 你 研究 一 
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下 那些 自然 形成 的 聚集 ， 可 能 就 会 发 现 一 些 新 的 用 户 特征 ,并 找 出 那些 比 现 有 特征 更 重要 的 、 实 
际 起 作用 的 特征 , 这 些 特征 决定 了 人 们 是 否 彼此 喜欢 。 这 就 是 使 用 非 监督 式 学 习 获得 有 用 结果 的 
例子 。 


另 一 个 实例 是 基于 属性 对 电影 分 类 。 如 果 你 对 IMDb 或 其 他 什么 地 方 的 电影 数据 运行 聚集 算 
法 ,那么 结果 可 能 会 非常 令 你 惊讶 。 聚 类 结果 不 能 仅 用 电影 风格 来 解释 ， 可 能 会 有 其 他 更 加 重 
要 的 特性 ， 比 如 电影 拍摄 的 年 代 、 时 长 或 发 行 地 区 ， 或 许 你 完全 想不到 。 还 有 一 个 例子 是 当 我 
们 分 析 产 品 描述 的 文本 , 并 试图 找 出 某 个 分 类 最 有 意义 的 术语 的 时 候 。 同 样 , 我 们 可 能 没有 必要 
事先 知道 什么 术语 或 词语 最 能 表明 产品 属于 某 一 类 别 ， 但 通过 非 监 督 式 学 习 ， 可 以 找 出 那些 隐 
藏 的 信息 。 







































































5.1.2 监督 式 学 习 


相 比 之 下 , 监督 式 学 习 则 适合 有 一 组 结果 可 供 模型 学 习 的 情况 。 我 们 为 模型 提供 一 组 训练 数 
据 进行 学 习 , 模型 从 中 推断 出 特性 和 分 类 之 间 的 联系 ,然后 将 这 些 联系 应 用 到 未 知 的 值 上 面 , 并 
预测 新 信息 。 


回 到 前 面 的 例子 , 我 们 试图 基于 汽车 的 某 些 特性 预测 它 的 价格 , 这 就 是 使 用 实际 结果 训练 模 
型 的 实例 。 我 们 已 经 知道 了 一 组 汽车 和 它们 的 实际 售 价 , 就 可 以 使 用 这 个 具有 完整 结果 的 数据 集 
来 训练 模型 ,并 使 用 创建 的 模型 来 预测 未 知 的 汽车 价格 。 这 就 是 监督 式 学 习 的 例子 , 你 会 给 模型 
提供 一 组 结果 以 供 学 习 。 你 已 经 对 一 组 数据 分 配 了 类 别 或 分 类 规则 , 然后 算法 使 用 这 些 规则 建立 
模型 ， 并 使 用 模型 预测 新 值 。 


1. 监督 式 学 习 的 评价 


那么 如 何 评 价 监督 式 学 习 呢 ?” 监 督 式 学 习 的 优点 是 可 以 使 用 一 个 称 为 训练 /测试 的 巧妙 
法 。 做 法 是 将 模型 需要 学 习 的 观测 数据 分 为 两 组 : 训练 集 和 测试 集 。 当 基于 数据 训练 /建立 模型 
时 ， 只 使 用 训练 集 数据 ， 而 将 另 一 部 分 数据 保留 起 来 ， 用 于 测试 的 目的 。 


可 以 使 用 数据 的 一 个 子 集 作为 训练 集 , 然后 对 得 出 的 模型 进行 评价 , 看 看 它 在 测试 集 上 是 否 
能 成 功 地 预测 出 正确 结 


你 知道 是 怎么 做 的 吗 ?我 们 有 一 个 数据 集 , 其 中 已 经 有 了 可 以 用 来 训练 模型 的 结果 , 但 要 保 
留 一 部 分 数据 , 通过 这 些 数据 来 测试 使 用 训练 集 生成 的 模型 。 这 是 一 种 测试 模型 在 未 知 数据 上 效 
果 的 非常 具体 的 方法 ， 因 为 我 们 实际 上 保留 了 一 部 分 可 以 用 来 测试 的 数据 。 


然后 ， 你 可 以 使 用 > 方 或 其 他 指标 〈 比如 均 方 根 误差 ) 来 定量 地 度量 模型 的 效果 。 你 可 以 在 
测试 时 将 一 个 模型 与 另 一 个 模型 进行 对 比 , 看 看 对 于 给 定 问 题 哪个 模型 是 最 好 的 。 你 可 以 调试 模 
型 的 参数 ， 使 用 训练 /测试 法 使 模型 在 测试 集 上 的 准确 率 达 到 最 大 。 所 以 ， 这 是 一 种 防止 过 拟 合 
的 非常 好 的 方法 。 
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监督 式 学 习 也 有 一 些 弱 点 。 你 要 确保 训练 集 和 测试 集 都 足够 大 , 确实 能 代表 你 的 数据 。 你 还 
需要 确保 训练 集 和 测试 集中 具有 你 关心 的 所 有 分 类 和 离 群 点 , 以 得 到 一 个 好 的 评测 指标 , 并 建立 
一 个 优秀 模型 。 

你 还 必须 随机 地 为 训练 集 和 测试 集 选择 数据 , 不 能 简单 地 将 数据 集 分 为 两 块 , 一 块 作为 训练 
集 ， 另 一 块 作为 测试 集 。 应 该 进行 随机 抽样 ， 因 为 数据 中 可 能 存在 着 你 不 知道 的 顺序 模式 。 

如 果 你 的 模型 存在 过 拟 合 , 或 者 被 训练 集中 的 离 群 点 带 偏 , 那么 当 应 用 在 训练 集中 的 未 知情 
境 上 时 ， 这 种 问题 就 会 显现 出 来 。 因 为 训练 集中 的 离 群 点 轨迹 不 会 适应 未 知 的 离 群 点 。 

这 里 需要 明确 一 下 ， 训 练 /测试 法 并 不 完美 ， 也 可 能 产生 有 误导 性 的 结果 。 也 许 是 样本 大 小 
不 够 , 正如 上 面 所 说 ; 也 许 是 由 于 随机 性 ,训练 数据 和 测试 数据 看 起 来 过 于 相似 ,甚至 具有 同样 
的 离 群 点 一 一 测试 之 后 仍然 存在 过 拟 合 。 从 下 面 的 图 形 可 以 看 出 ， 确 实 可 能 发 生 这 种 情况 。 

































































训练 数据 集 测试 数据 集 














2.k 折 交叉 验证 

有 一 个 解决 这 种 问题 的 方法 ， 称 为 x 折 交叉 验证 ， 本 书后 面 将 会 给 出 一 个 例子 。 它 的 基本 理 
念 就 是 进行 多 次 训练 /测试 ， 不 是 将 数据 分 为 一 个 训练 集 和 一 个 测试 集 ， 而 是 随机 分 成 个 部 分 。 
这 就 是 大 的 由 来 。 每 次 保留 一 个 部 分 作为 测试 集 ， 使 用 其 他 部 分 作为 训练 集 去 训练 模型 ， 并 在 
测试 集 上 度量 模型 性 能 。 随 后 ,将 每 个 训练 集 模型 的 结果 进行 平均 ， 并 对 每 个 模型 的 x 方 值 进行 
平均 。 

通过 这 种 方法 ， 你 可 以 使 用 数据 的 不 同 部 分 进行 训练 , 在 同一 个 测试 集 上 度量 模型 性 能 。 如 
果 某 个 训练 集 上 的 模型 存在 过 拟 合 ， 那 么 和 上 左 折 交叉 验证 中 的 其 他 模型 进行 平均 ， 就 可 以 解决 。 

以 下 是 下 折 交叉 验证 的 步骤 : 

(1) 将 数据 随机 划分 为 个 部 分 ; 

(2) 保留 一 个 部 分 作为 测试 集 ; 

(3) 使 用 剩余 的 -1 个 部 分 训练 模型 ， 并 在 测试 集 上 度量 模型 的 性 能 ; 
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(4) 将 以 上 第 (2) 步 和 第 (3) 步 重复 次 ,轮流 使 用 一 个 部 分 作为 测试 集 ， 其 他 -1 部 分 作为 训 
练 集 ， 最 后 计算 出 个 x 方 值 的 平均 数 。 











后 面 将 会 进行 更 加 详细 的 介绍 。 眼下, 我 只 想 让 你 知道 , E 折 交叉 验证 可 以 使 训练 /测试 方法 
更 加 强大 。 下 面 让 我 们 使 用 一 些 数 据 拟 合 模 型 ， 并 使 用 训练 /测试 法 进行 评价 。 


5.2 ”使 用 训练 /测试 法 防止 多 项 式 回 归 中 的 过 拟 合 


我 们 来 一 次 训练 /测试 法 的 实战 。 你 或 许 还 记得 ， 回 归 是 监督 式 学 习 的 一 种 形式 。 我 们 使 用 
前 面 介绍 过 的 多 项 式 回 归 ， 通 过 训练 /测试 法 找 出 拟 合 给 定数 据 集 的 正确 阶 数 。 


和 前 面 例子 一 样 ， 随 机 生成 一 些 页 面 载 人 速度 和 购物 金额 的 数据 , 然后 在 其 中 创建 一 种 不 十 
分 明显 的 指数 关系 。 
smatplotlib inline 


Import numpy as np 
from pylab import * 








np.random.seed (2) 


pageSpeeds = np.random.normal(3.0, 1.0, 100) | 


purchaseAmount = np.random.normal (50.0, 30.0, 100) / pageSpeeds 





scatter (pageSpeeds, purchaseAmount) 


运行 代码 生成 这 些 数据 。 对 于 页 面 载 人 速度 和 购物 金额 ,都 使 用 正 态 分 布 随机 数据 ,并 使 用 
如 下 图 所 示 的 关系 。 





<matplotlib.collections.PathCollection at 8@x7ceb8f8> 
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接 下 来 划分 数据 。 我们 将 使 用 80% 的 数据 作为 训练 数据 。 所 以 ,只 有 80% 的 数据 点 用 于 训练 
其 余 的 20% 将 被 保留 ， 用 于 测试 模型 在 未 知 数据 上 的 表现 。 


He 


模型 ， 
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使 用 Python 拆 分 列表 的 方法 ， 令 前 80 个 数据 点 为 训练 集 ， 后 20 个 数据 点 为 测试 集 








。 你 应 


该 还 记得 Python 基础 那 一 章 的 内 容 ， 下 面 使 用 那里 介绍 的 语法 来 完成 拆 分 ， 对 于 购物 金额 ， 做 


同样 的 拆 分 : 


trainx = pageSpeeds[:80] 
testX = pageSpeeds[80:] 


trainY = purchaseAmount[:80] 
testY = purchaseAmount [80:] 








在 前 面 的 小 节 中 , 我 们 说 过 不 应 该 像 上 面 那样 简单 地 划分 数据 ,而 应 该 随机 地 抽取 数据 组 成 
训练 集 和 测试 集 。 但 在 这 个 例子 中 , 这样 做 是 可 以 的 ， 因 为 原始 数据 就 是 随机 生成 的 ， 所 以 数据 


























中 没有 什么 模式 。 但 是 ， 在 实际 数据 中 ， 在 划分 训练 集 和 测试 集 




















这 个 例子 中 使 用 了 一 种 简便 方法 来 使 数据 随机 化 。 另 外 ， 如 果 


























前 ， 要 对 其 随机 化 。 
你 使 用 pandas 包 ， 其 中 有 些 


方便 的 函数 ， 可 以 为 你 自动 地 划分 训练 集 和 测试 集 。 但 这 里 使 用 的 是 Python 列表 。 我 们 将 得 到 
的 训练 集 用 图 形 表示 出 来 ， 用 页 面 载 入 速度 和 购物 金额 画 出 一 张 散 点 图 : 


scatter (trainx, trainY) 
































输出 如 下 。 
<matplotlib.collections.PathCollection at 68x7ceb6fe> 
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150 1 
125 
100 ] 
| 四 
50 ] je - 0: . 
a s% ® eo ' 
25 1 部 ee 二 
刘 。° %s ee ct ys © 
1 2 3 4 5 
上 图 绘制 出 了 从 初始 完整 数据 集中 随机 选取 出 的 80 个 点 ， 基 本 上 与 原来 的 数据 集 具有 同样 
的 形状 ， 这 非常 不 错 ， 说 明 它 能 够 代表 原来 的 数据 ， 这 一 点 非常 重要 ! 





下 面 绘制 出 剩 下 的 20 个 保留 为 测试 集 的 点 : 


scatter (testX，testY) 
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Duti4j: <matplotlib.collections.PathCollection at 8x8665718> 























可 以 看 出 ， 其 余 20 个 测试 集 数据 同样 与 原始 数据 具有 大 致 相同 的 形状 。 所 以 我 们 认为 它 是 
个 有 代表 性 的 测试 集 。 这 个 数据 集 与 现实 世界 中 的 数据 集 比 起 来 有 点 小 。 如 果 你 有 1000 个 点 ， 
而 不 是 100 个 ， 从 中 选取 出 200 个 点 ， 而 不 是 20 个， 那么 结果 会 更 好 。 


下 面试 着 使 用 8 阶 多 项 式 来 拟 合 数据 ,选择 8 这 个 阶 数 ， 是 因为 它 确实 很 高 ,非常 可 能 产生 
过 拟 合 。 


使 用 代码 np.poly1ld (np.polyfit (x，y，8)) 来 拟 合 一 个 8 阶 多 项 式 ， 这 里 的 x 是 训练 
集 数据 ，y 也 是 训练 集 数据 。 使 用 作为 训练 集 的 80 个 点 来 得 出 模型 。 我 们 得 到 了 p4 函数 对 象 ， 
可 以 用 它 来 预测 新 的 值 : 


np.array (trainx) 
np.array (trainYy) 





























x 
,8 


p4 = np.polyld(np.polyfit (x, y, 8) 





将 这 个 多 项 式 曲线 与 训练 数据 一 起 绘制 出 来 , 用 散 点 图 表示 训练 集中 的 原始 数据 , 然后 在 其 
上 绘制 出 预测 值 : 


import matplotlib.pyplot as plt 


xp = np.linspace(0, 7, 100) 
axes = plt.axes() 
axes.set_xlim([0,7]) 
axes.set_ylim([0, 200]) 
plt.scatter (x, y) 

Blt plot(Xpy PLB); Cur 
plt.show!() 


在 下 面 的 图 形 中 ， 可 以 看 出 这 是 个 相当 好 的 拟 合 ， 但 很 明显 ， 其 中 存在 过 拟 合 。 












































曲线 的 右 侧 太 离 谱 了 ,我 们 非常 肯定 , 真实 的 数据 绝对 不 会 像 函 数 所 示 的 那么 高 。 所 以 ,这 
是 个 数据 过 拟 合 的 典型 示例 。 曲 线 对 给 定数 据 拟 合 得 非常 好 , 但 它 的 右 侧 上 升 得 太 高 了 ,用 它 来 
预测 新 值 会 是 一 个 非常 糟糕 的 结果 。 下 面 来 看 看 曲线 在 测试 集 上 的 效果 : 


testx 
testy 




















= np.array (testx) 

= np.array (testY) 
axes = plt.axes!() 
axes.set_xlim([0,7]) 
axes.set_ylim([0, 200]) 
plt.scatter (testx, testy) 
Blt .DLIot (Ro PLA) CT") 
plt.show!() 


实际 上 ， 如 果 将 测试 数据 与 曲线 绘制 在 一 起 ， 看 上 去 也 没有 那么 糟糕 。 
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我 们 的 运气 不 错 ， 曲 线 在 测试 集 上 的 表现 也 还 可 以 ,然而 你 可 以 看 出 , 虽然 这 是 个 不 错 的 拟 
合 ， 但 远 非 完美 。 实 际 上 ， 如 果真 正 计 算 一 下 > 方 值 ， 就 会 发 现 它 比 想象 的 还 要 差 。 可 以 使 用 
sklearn.metrics 中 的 r2_score() 限 数 计算 r 方 。 只 需 将 原始 数据 和 预测 值 传 给 这 个 函数 ， 
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它 会 自动 计算 预测 的 偏差 以 及 偏差 的 平方 并 进行 加 总 : 


from sklearn.metrics import r2_score 
r2 = r2_score(testy, p4 (testx)) 
print r2 


7 方 值 只 有 0.3， 所 以 模型 没有 那么 好 ! 它 对 训练 数据 的 拟 合 要 好 得 多 : 


from sklearn.metrics import r2_score 
r2 = r2_score(np.array (trainY), p4 (np.array (trainx))) 
print ¥2 


7 方 值 变 成 了 0.6, 这 不 奇怪 , 因为 我 们 使 用 训练 集 数据 训练 了 模型 。 测试 集 数据 对 模型 是 未 
知 的 ， 模 型 接受 了 测试 ， 但 确实 没有 通过 ， 它 只 解释 了 30% 的 误差 ,简直 就 是 不 及 格 ! 

这 就 是 使 用 训练 /测试 方法 评价 监督 式 学 习 算 法 的 一 个 例子 ， 和 我 以 前 说 过 的 一 样 ，pandas 
中 有 些 功能 可 以 更 容易 地 实现 这 个 例子 。 我 们 稍 后 会 对 此 进行 介绍 ， 并 会 给 出 更 多 的 使 用 训练 / 
测试 方法 的 示例 ， 包 括 大 折 交 叉 验 证 。 



























































练习 


你 可 能 已 经 猜 到 作业 是 什么 了 。 既 然 已 经 知道 8 阶 多 项 式 的 效果 不 好 , 你 能 做 得 更 好 吗 ? 我 
和 希望 你 继续 研究 这 个 例子 ,使 用 你 认为 合适 的 不 同 阶 数 的 多 项 式 。 将 8 改 为 其 他 值 ， 看 看 使 用 训 
练 /测试 法 是 否 能 够 找 出 效果 最 好 的 多 项 式 阶 数 ， 看 看 哪个 阶 数 的 多 项 式 能 在 测试 集 上 获得 最 好 
的 x 方 值 。 到 底 阶 数 为 多 少 合适 呢 ?” 去 找 一 下 吧 。 这 是 个 相当 容易 的 练习 , 也 可 以 给 你 很 多 启示 。 

这 就 是 训练 /测试 方法 的 实战 ， 它 是 你 可 以 掌握 的 一 种 非常 重要 的 技术 。 你 会 经 常 使 用 这 种 
技术 来 确定 你 的 结果 是 否 是 模型 的 良好 拟 合 ,以 及 你 的 结果 是 否 可 以 非常 好 地 预测 未 知 值 。 在 你 
建 模 时 ， 它 也 是 防止 出 现 过 拟 合 的 一 种 好 方法 。 









































5.3 ”由 时 斯 方法 概念 


你 是 否 想 知道 电子 邮件 系统 中 的 垃圾 邮件 分 类 融 是 如 何 运 作 的 ? 它 如 何 确定 一 封 邮件 是 否 
为 垃圾 邮件 呢 ? 一 种 通用 的 技术 称 为 朴素 贝 叶 斯 , 这 是 贝 叶 斯 方法 的 一 个 例子 。 下 面 我 们 就 讨论 
这 种 贝 叶 斯 方法 ， 学 习 一 下 它 的 工作 原理 。 


本 书 前 面 内 容 中 介绍 过 贝 叶 斯 定理 , 用 它 说 明了 药品 检测 可 以 得 出 非常 有 误导 性 的 结果 。 贝 
叶 斯 定理 还 可 以 应 用 在 更 大 规模 的 问题 中 ,比如 垃圾 邮件 分 类 器 。 下 面 来 看 看 垃圾 邮件 分 类 器 是 
如 何 工作 的 。 它 的 工作 方法 被 称 为 贝 叶 斯 方法 。 


简单 复习 一 下 贝 叶 斯 定理 。 给 定 B 时 4 发 生 的 概率 等 于 4 的 总 体 概 率 乘 以 给 定 4 时 B 发 生 
的 概率 再 除 以 B 的 总 体 概率 。 
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P(A)PB| 4) 


P(A|B)= pe 














如 何在 机 器 学 习 中 应 用 贝 叶 斯 定理 ? 可 以 用 这 个 定理 建立 一 个 垃圾 邮件 分 类 器 : 它 是 一 种 算 
法 , 可 以 分 析 已 知 的 垃圾 邮件 和 非 垃圾 邮件 , 并 训练 一 个 模型 来 预测 新 的 电子 邮件 是 否 为 垃圾 邮 
件 。 现 实 世 界 中 的 垃圾 邮件 分 类 需 确 实 使 用 了 这 种 技术 。 


作为 一 个 例子 ， 让 我 们 来 确定 一 封 含 有 “free” 这 个 词 的 电子 邮件 是 否 为 垃圾 邮件 。 如 果 有 
人 向 你 推销 免费 的 东西 ， 那 它 很 可 能 是 垃圾 邮件 ! 下 面 来 研究 一 下 这 个 问题 。 在 含有 “free” 这 
个 词 的 情况 下 ， 一 封 邮件 是 垃圾 邮件 的 概率 等 于 它 是 垃圾 邮件 的 总 体 概率 乘 以 垃圾 邮件 中 含有 
“free” 的 概率 再 除 以 所 有 邮件 中 含有 “free” 的 总 体 概率 。 









































P(Spam)P(Free| Spam) 
P(Free) 


式 中 的 分 子 可 以 被 认为 是 一 封 邮 件 既 是 垃圾 邮件 又 含有 “free” 的 概率 。 但 它 和 我 们 要 寻找 的 结 
果 有 一 点 不 同 ， 因 为 它 是 在 整个 数据 集中 的 概率 ,不 是 在 包含 “free” 的 情况 下 是 垃圾 邮件 的 概 
率 。 图 中 的 分 母 是 邮件 中 含有 “free” 的 总 体 概率 ， 有 时 候 从 数据 中 不 能 立刻 知道 这 个 值 。 如 果 
不 知道 这 个 值 ， 那 么 你 可 以 通过 下 面 的 表达 式 将 它 推导 出 来 。 


P(Free| Spam)P(Spam)+ P(Free| Not Spam)P(Not Spam)) 


这 样 就 可 以 得 出 含有 “free” 这 个 词 的 邮件 是 垃圾 邮件 的 概率 。 如 果 你 想 知道 一 封 邮件 是 否 为 垃 
圾 邮件 ， 这 个 信息 非常 有 用 。 


那么 英语 中 的 其 他 单词 呢 ? 我 们 的 垃圾 邮件 分 类 器 还 应 该 检查 一 下 除 “free” 之 外 的 单词 。 
它 应 该 自动 检查 邮件 中 的 每 个 单词 ,并 确定 每 个 单词 对 邮件 是 垃圾 邮件 的 可 能 性 有 多 大 贡献 。 所 
以 我 们 需要 用 所 有 可 能 的 单词 去 训练 模型 ， 但 要 除去 “a”“the” 和 “and” 这 种 没有 意义 的 词 。 
当 检查 了 邮件 中 所 有 的 单词 后 , 可 以 把 每 个 单词 所 确定 的 垃圾 邮件 的 概率 相 乘 ， 从 而 得 到 邮件 是 
垃圾 邮件 的 总 体 概率 。 


这 种 方法 称 为 朴素 贝 叶 斯 是 有 原因 的 , 它 很 朴素 , 是 因为 我 们 假定 各 个 单词 之 间 是 没有 联系 
的 。 只 是 独立 地 检查 邮件 中 的 每 个 单词 ,然后 将 每 个 单词 对 确定 是 否 为 垃圾 邮件 的 贡献 组 合 起 来 。 
没有 考虑 单词 之 间 的 联系 。 更 高 级 的 垃圾 邮件 分 类 器 会 考虑 这 种 联系 ,显然 实现 这 种 分 类 器 要 困 
难得 多 。 

这 种 分 类 器 似乎 需要 很 多 工作 量 , 但 它 的 整体 理念 并 不 难 , Python 的 scikit-learm 包 可 以 很 轻 
松 地 实现 它 。scikit-learn 提供 了 一 个 称 为 CountVectorizer 的 功能 ， 可 以 非常 简单 地 对 电子 邮件 
进行 分 词 ， 并 对 每 个 单词 进行 处 理 。scikit-learn 还 有 一 个 MultinomialNB 国 数 ， 其 中 的 NB 就 
表示 朴素 贝 叶 斯 ， 这 个 函数 可 以 为 我 们 完成 朴素 贝 叶 斯 中 的 所 有 繁重 工作 。 


P(Spam | Free) = 
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5.4 ”使 用 朴素 贝 叶 斯 实现 垃圾 邮件 分 类 器 


我 们 使 用 朴素 贝 叶 斯 编写 一 个 垃圾 邮件 分 类 器 , 它 的 容易 程度 会 超 乎 你 的 想象 。 实 际 上 , 大 
部 分 的 工作 都 花 在 了 读 入 要 训练 的 输入 数据 以 及 对 数据 的 解析 上 面 , 垃圾 邮件 分 类 和 机 器 学 习 部 
分 只 需要 几 行 代码 。 这 就 是 数据 科学 的 常见 工作 方式 , 数据 的 读 取 、 处 理 和 清洁 通常 占用 了 大 部 
分 工作 量 ， 你 要 习惯 这 种 方式 ! 


import os 

import io 

import numpy 

from pandas import DataFrame 

from sklearn.feature extraction.text import CountVectorizer 
from sklearn.naive bayes import MultinomialNB 



































def readFiles (path): 
for root, dirnames, filenames in os.walk (path): 
for filename in filenames: 
path = os.path.join(root, filename) 


inBody = False 

lines = [] 

f = io.open(path, 'r', encoding='latinl') 
for Tine in f£’ 


if inBody: 
lines.append (line) 
= 
inBody = True 
f.close() 
message = '\n'.join(lines) 


yield path, message 


def dataFrameFromDirectory (path, classification): 
rows = [] 
index = [] 
for filename, message jin readFiles (path): 
rows.append({'message': message, 'class': classification}) 
index.append (filename) 


return DataFrame (rows, index=index) 
data = DataFrame({'message': [], 'class': []}) 


data = data.append (dataFrameFromDirectory\( 
'e:/sundog-consult/Udemy/DataScience/emails/spam', 
'spam' )) 

data = data.append (dataFrameFromDirectory\( 
'e:/sundog-consult/Udemy/DataScience/emails/ham', 
'ham' )) 


我 们 要 做 的 第 一 件 事 就 是 读 人 所 有 电子 邮件 数据 。 为 了 使 这 项 任务 更 容易 实现 , 还 是 使 用 pandas 
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来 做 。pandas 也 是 处 理 表格 数据 的 强大 工具 。 在 示例 代码 中 导入 需要 使 用 的 各 个 扩展 包 ， 包 括 
os 包 、io 包 、numpy 包 、pandas 包 以 及 scikit-learn 中 的 CountVectorizer 和 MultinomialNB 包 。 


我 们 详细 地 介绍 一 下 这 段 代 码 。 可 以 先 跳 过 函数 readFiles () 和 dataFrameFromDirectory () 
的 定义 ， 直 接 来 到 创建 pandas 数据 框 对 象 的 代码 。 


我 们 通过 一 个 字典 来 创建 数据 框 ， 这 个 字典 最 初 包含 一 个 邮件 信息 空 列表 和 一 个 类 别 空 列 
表 。 这 行 代 码 的 含义 是 :“ 我 需要 一 个 数据 框 ， 其 中 包含 两 个 列 ， 一 列 是 邮件 信息 ， 即 每 封 电 子 
邮件 中 的 实际 文本 ; 另 一 列 是 每 封 邮件 的 类 别 ， 即 它 是 垃圾 邮件 还 是 正常 邮件 。” 这 行 代码 的 作 
用 是 建立 一 个 小 型 电子 邮件 数据 库 ， 这 个 数据 库 有 两 列 : 邮件 中 的 文本 和 是 否 为 垃圾 邮件 。 


现在 需要 填充 数据 库 , 也 就 是 Python 语法 中 的 数据 框 。 我 们 调用 append() 和 dataFrame- 
FromDirectory () 两 种 方法 , 将 spam 文件 夹 中 的 垃圾 邮件 和 ham 文件 夹 中 的 正常 邮件 添加 到 
数据 框 中 。 


练习 到 这 里 的 时 候 , 请 一 定 将 dataFrameFromDirectory () 国 数 中 的 路 径 修改 为 你 系统 中 
本 书 附 带 材 料 的 路 径 ! 再 强调 一 次 ,如 果 你 使 用 的 是 Mac 或 Linux 系统 , 请 注意 一 下 和 斜 杠 和 反 斜 
杠 的 区 别 。 在 这 个 例子 中 ， 这 个 问题 不 是 很 重要 ， 但 如 果 你 用 的 不 是 Windows 系统 ， 请 不 要 使 
用 盘 符 。 一 定 要 确保 函数 中 的 路 径 能 指向 spam 文件 夹 和 ham 文件 夹 。 


dataFrameFromDirectory () 是 我 们 自己 定义 的 一 个 函数 ， 它 的 基本 功能 是 将 一 个 目录 中 
的 电子 邮件 文件 读 入 到 数据 框 中 。 这 个 目录 中 的 电子 邮件 已 经 给 定 了 分 类 , 或 者 是 垃圾 邮件 ,或 
者 是 正常 邮件 。 这 个 函数 使 用 了 自 定义 的 reagdFiles () 函数 ， 它 可 以 在 一 个 目录 中 以 迭代 的 方 
式 读 入 每 一 个 文件 。reaqFiles () 函数 使 用 os .walk() 函数 遍历 目录 中 的 所 有 文件 ， 生 成 目录 
中 每 个 单独 文件 的 完整 路 径 ， 然 后 读 和 文件。 读 和 人 文件 后 ， 它 跳 过 每 封 邮 件 的 头 信息 ， 直 接 处 理 
邮件 的 正文 。 函 数 通过 寻找 第 一 个 空 行 来 确定 头 信 息 。 

第 一 个 空 行 后 面 就 是 邮件 的 正文 , 空 行 前 面 是 一 组 头 信息 , 头 信息 不 能 用 来 训练 垃圾 邮件 分 
类 器 。readqFiles() 函数 返回 的 是 文件 完整 路 径 和 邮件 正文 信息 。 这 就 是 读 取 数据 的 方法 ， 它 
占用 了 大 部 分 代码 ! 

最 后 ,我们 得 到 了 一 个 数据 框 对 象 ， 基 本 上 就 是 个 两 列 数据 库 ， 一 列 是 邮件 正文 ， 另 一 列 标 
识 邮件 是 否 为 垃圾 邮件 。 运 行 上 面 的 代码 ， 然 后 使 用 数据 框 的 head 命令 预览 一 下 其 中 的 信息 : 

data.head() 

数据 框 中 的 前 几 行 数据 如 下 所 示 , 对 于 每 一 封 具 有 完整 路 径 的 电子 邮件 , 我 们 都 有 它 的 分 类 
和 邮件 正文 。 
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Out[12]: class | message 





C:\Users\deveshc\iDesktop\DataScience\emails\spam\00001.7848dde101aa985090474a91ec93fcf0 | spam | <IDOCTYPE HTML PUBLIC "J//W3C//DTD H 





C:\Users\deveshc\iDesktop\DataScience\emails\spam\00002.d94f1b97e48ed3b553b3508d116e6a09 | spam | 1) Fight The Risk of Canceri\n\nhtip-//Wwww.ad 





C:\Users\ideveshc\Desktop\DataScience\emails\spam\00003.2ee33bc6eacdb11f38d052c44819ba6c | spam | 1) Fight The Risk of Canceri\n\nhttp-//www.ad 











Ci:\Users\ideveshc\Desktop\DataScience\emails\spam\00004.eac8de8d759b7e74154f142194282724 | Spam | HH HH 











C:\Users\ideveshc\Desktop\DataScience\emails\spam\00005.57696a39d7d84318ce497886896bf90d | spam | 1 thought you might like these:\nnn1) Slim Doy| 











» 























下 面 是 代码 的 精华 部 分 ， 我 们 使 用 scikit-learn 中 的 Multinomial 函数 在 数据 上 执行 村 
素 贝 叶 斯 计算 。 


Vectorizer = CountVectorizer() 
Counts = Vectorizer.fit_transforml(dqata['message'].values) 

















classifier = MultinomialNB() 
targets = data['class'] .values 
classifier.fit(counts, targets) 


输出 结果 如 下 。 





MultinomialNB(alpha=1.8, class prior=None, fit prior=True) 

















MultinomialNB 分 类 器 建立 之 后 需要 两 个 输入 ， 一 个 是 训练 所 需 的 实际 数据 ( counts )， 
另 一 个 是 相应 的 目标 (targets )。counts 就 是 每 封 电子 邮件 中 的 单词 列表 以 及 每 个 单词 出 现 
的 次 数 。 


CountVectorizer () 的 功能 如 下 : 从 数据 框 中 取出 message 列 , 并 处 理 其 中 所 有 的 值 。 我 
们 调用 了 vectorizer.fit_transform 图 数 ， 它 的 基本 功能 是 将 数据 中 的 每 个 单词 转换 为 数 
值 ， 然 后 计算 出 每 个 单词 出 现 的 次 数 。 


这 是 表示 单词 在 邮件 中 出 现 次 数 的 一 种 更 紧凑 的 方法 。 实 际 上 ,我们 没有 保留 单词 本 身 ， 而 
是 将 这 些 单词 表示 为 稀疏 矩阵 中 的 各 种 数值 ， 也 就 是 说 ,将 每 个 单词 按照 一 个 数值 来 处 理 ， 作 为 
数组 中 的 数值 索引 。 简 而 言 之 ， 就 是 将 每 封 邮件 拆 分 成 一 个 单词 列表 ,并 计算 出 每 个 单词 出 现 的 
次 数 。 所 以 ,我 们 将 结果 变量 命名 为 counts， 其 中 保存 的 信息 就 是 每 个 单词 在 每 封 邮 件 中 出 现 
的 次 数 。 同 时 ，targets 中 是 每 封 邮件 的 实际 分 类 。 然 后 ， 我 们 调用 classifier.fit() 来 使 
用 MultinomialNB() 函数 ,应 用 朴素 贝 叶 斯 来 创建 模型 ,这 个 模型 可 以 基于 已 知 信息 预 测 一 封 
新 邮件 是 否 为 垃圾 邮件 。 


运行 一 下 上 面 的 代码 ， 其 速度 非常 快 ! 下 面 再 试验 两 个 例子 。 一 个 例子 的 邮件 正文 是 “Free 
Money now!l!”, 这 明显 是 封 垃圾 邮件 。 男 一 个 例子 则 是 封 正 常 邮件 , 其 正文 是 “Hi Bob, how about 
a game of golf tomorrow?”。 来 看 看 这 两 封 邮件 的 分 类 结 


examples = ['Free Money now!!!', "Hi Bob, how about a game of golf 
tomorrow?"] 
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example_counts = vectorizer.transform(examples) 
predictions = classifier.predict (example _ counts) 
predictions 


首先 ,将 邮件 正文 转换 为 训练 模型 所 需 的 格式 。 然 后 ,使 用 创建 模型 时 的 同一 个 vectorizer 
对 象 将 每 封 邮件 转换 为 一 个 单词 列表 及 其 出 现 次 数 , 单词 用 它 在 数组 中 的 位 置 来 表示 。 这 些 转换 
完成 之 后 ， 对 转换 为 单词 列表 的 示例 数组 使 用 分 类 器 的 predict () 函数 ， 结 果 如 下 。 
































Out[14]: array(['` spam ， "ham ]， 
dtype= 154 ) 











array(['spam', 'ham'], dtype='|S4') 


这 个 分 类 器 果然 有 效 ! 对 于 由 两 封 邮件 组 成 的 数组 “Free Money now!!l!” 和 “Hi Bob”, 它 
告诉 我 们 第 一 封 是 垃圾 邮件 ， 第 二 封 是 正 党 邮件， 这 正 是 我 们 所 期 望 的 。 太 棒 了 ， 做 得 不 错 。 





























练习 


我 们 使 用 的 数据 集 比 较 小 ,你 可 以 再 使 用 不 同 的 邮件 试验 一 下 ,看 看 能 得 到 什么 结果 。 如 果 
你 想 挑 成 一 下 自己 ,可 以 对 这 个 例子 应 用 训练 /测试 方法 。 能 判定 “Free Money now!!!” 是 垃圾 邮 
件 并 不 能 说 明 垃 圾 邮件 分 类 天 性 能 的 好 坏 ， 我 们 需要 一 些 定 量 的 指标 。 


如 果 你 想 有 点 挑战 , 那么 试 着 去 将 数据 划分 为 训练 集 和 测试 集 。 可 以 在 网 上 搜索 一 下 ,看 看 
pandas 如 何 轻松 地 划分 训练 集 和 测试 集 ， 也 可 以 手动 进行 划分 , 视 自己 情况 而 定 。 你 可 以 在 测试 





















































集 上 应 用 MultinomialNB 分 类 器 ,并 测试 一 下 它 的 效果 。 如 果 你 想 做 点 练习 ， 提 高 点 难度 , 那 
就 按 我 说 的 去 做 吧 。 


























只 使 用 几 行 Python 代码 ， 就 实现 了 自己 的 垃圾 邮件 分 类 器 ， 是 不 是 很 棒 ? 使 用 Python 和 
scikit-learn 会 使 这 项 工作 变 得 非常 容易 。 这 就 是 朴素 贝 叶 斯 的 实战 。 既 然 你 已 经 有 了 垃圾 邮件 
分 类 器 ， 就 可 以 用 它 来 实际 区 分 一 些 垃圾 邮件 和 正常 邮件 。 本 节 内 容 非常 实用 。 下 一 节 将 讨论 
聚 类 。 




















5.5 kk 均值 聚 类 


接 下 来 讨论 上 均值 聚 类 。 这 是 我 们 想 将 一 个 对 象 集合 分 成 多 个 不 同 分 组 的 一 种 非 监督 式 学 习 
方法 。 这 个 集合 可 能 是 不 同 风格 的 电影 ,也 可 能 是 具有 不 同 特征 的 人 群 。 聚 类 非常 简单 ， 下 面 来 
看 看 它 是 如 何 工 作 的 。 

上 均值 聚 类 是 机 器 学 习 中 一 种 非常 常用 的 技术 ， 它 基于 数据 本 身 的 特性 ， 试 图 将 一 组 数据 划 
分 为 多 个 艇 。 听 起 来 异常 复杂 ， 实 际 上 非常 简单 。K 均值 案 类 就 是 将 数据 分 成 个 组 ， 这 就 是 
的 由 来 ， 它 表示 你 想 将 数据 分 成 多 少 个 组 ， 这 种 划分 是 通过 寻找 个 中 心 点 来 实现 的 。 
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总 的 说 来 ， 数 据点 属于 哪个 组 是 由 它 距 离 哪个 中 心 点 最 近 而 决定 的 。 你 可 以 将 其 形式 化 为 
下 图 。 


























上 图 展示 了 大 值 为 3 的 一 个 大 均值 聚 类 ， 其 中 的 方块 表示 散 点 图 中 的 数据 点 ， 圆 圈 表 示 大 均 
值 聚 类 算法 得 到 的 中 心 点 ， 每 个 点 都 被 分 配 到 与 其 距离 最 近 的 中 心 点 所 在 的 复 。K 均 值 聚 类 是 一 











种 非 监督 式 学 习 方法 ,并 不 是 说 我 们 有 一 组 数据 , 并 且 对 于 某 个 训练 集 数据 已 经 知道 它 属 于 哪个 
复 ， 而 是 我 们 只 有 数据 ， 算 法 试图 基于 数据 的 特性 来 自然 地 聚集 成 不 同 的 簇 。K 均 值 聚 类 还 可 以 
用 来 找 出 未 知 的 簇 或 分 类 。 和 多 数 非 监 督 式 学 习 方法 一 样 , 它 的 意义 在 于 找 隐 藏 的 值 ， 即 你 根本 
意识 不 到 的 模式 ， 直 到 算法 为 你 展示 出 来 。 


例如 ， 有 钱 人 都 住 在 哪里 ? 我 不 知道 ， 也 许 有 些 地 点 是 富 人 们 喜欢 居住 的 , 大 均值 育 类 可 以 
帮助 找 出 这 些 地 点 。 我 真 的 不 知道 现在 的 音乐 流派 以 及 当下 流行 的 另类 说 唱 到 底 有 什么 意义 ? 通 
过 对 歌曲 特性 进行 大 均值 聚 类 ,或 许 能 找 出 一 些 有 趣 的 彼此 相关 的 歌曲 类 别 ， 并 为 这 种 类 别 取 一 
个 新 名 字 。 此 外 ， 可 以 查 一 下 人 口 统计 学 数据 ， 可 能 现 有 的 老 一 套 说 法 已 经 过 时 了 。 例 如 ,拉丁 
裔 这 种 说 法 已 经 没有 意义 了 , 现在 需要 其 他 的 特性 来 定义 人 群 ,， 而 我 们 可 以 通过 聚 类 找 出 这 个 特 
性 。 听 起 来 不 错 ， 是 不 是 ? 真是 非常 复杂 的 技术 。 大 均值 聚 类 是 一 种 非 监督 式 机 器 学 习 方法 ， 听 
起 来 很 高 深 , 但 和 多 数 数据 科学 中 的 技术 一 样 ， 实 际 上 其 概念 非常 简单 。 


下 面 是 均值 案 类 算法 的 简单 描述 。 

(1) 随机 选择 k 个 中 心 点 〈k 均值): 首先 ， 从 一 组 随机 选择 的 中 心 点 开始 。 如 果 为 3， 分 
组 中 就 包括 3 个 复 ， 在 散 点 图 上 ， 要 随机 选择 3 个 中 心 点 。 

(2) 将 每 个 数据 点 分 配 到 与 它 距离 最 近 的 中 心 点 : 然后 ， 将 每 个 数据 点 随机 分 配 到 离 它 距离 
最 近 的 中 心 点 。 




























































































(3) 基于 每 个 簇 的 平均 距离 ， 重 新 计算 中 心 点 : 对 于 从 上 面 步 骤 得 到 的 每 个 徐 ， 重新 计算 中 
心 点 ， 也 就 是 说 ， 将 中 心 点 移动 到 簇 中 所 有 点 的 中 心 。 








(4) 重复 上 面 的 步骤 ， 直 到 中 心 点 不 再 改变 : 一 直 重 复 上 面 的 步骤， 直到 中 心 点 不 再 移动 ， 
也 就 是 达到 了 令 人 满意 的 某 种 冰 值 ， 这 样 就 可 以 聚集 出 一 些 簇 。 


(5) 预测 新 数据 点 所 属 的 簇 : 要 预测 未 知 的 新 数据 点 所 属 的 徐 ， 可 以 检查 每 个 中 心 点 ， 找 出 
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离 新 数据 点 最 近 的 中 心 点 ， 将 新 数据 点 分 配给 这 个 中 心 点 所 在 的 簇 。 


我 们 来 看 一 个 图 形 化 的 例子 ， 以 便 将 聚集 过 程 描述 得 更 清楚 一 些 。 下 面 有 4 张 图 , 假设 第 一 
张 图 为 A， 第 二 张 图 为 B， 第 三 张 图 为 C， 第 四 张 图 为 D。 
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图 A 中 的 灰色 方块 表示 散 点 图 中 的 数据 点 。 坐 标 轴 表 示 某 种 特征 ， 可 能 是 年 龄 和 收入 , 我 
常用 年 龄 和 收入 来 举例 ,其 实 它 可 以 是 任何 特征 。 灰 色 方 块 可 以 表示 一 个 人 、 一 首 歌 或 其 他 我 们 
想 找 出 其 中 联系 的 什么 东西 。 


聚集 过 程 开始 时 ,在 散 点 图 上 随机 选择 3 个 点 , 这 3 个 点 可 以 任意 选择 , 在 图 A 中 用 圆圈 表 
示 这 3 个 点 (中心 点 )。 下 一 步 , 计算 灰色 的 点 距离 哪个 中 心 点 最 近 。 通 过 这 一 步 ， 蓝 色 的 点 被 
分 配给 蓝 色 中 心 点 ,绿色 的 点 距离 绿色 中 心 点 最 近 ， 只 有 一 个 红色 点 距离 红色 中 心 点 最 近 。 


当然 , 可 以 看 出 这 肯定 不 是 最 后 的 结果 。 接 下 来 要 做 的 是 , 依照 每 个 簇 中 的 所 有 点 计算 出 实 
际 的 中 心 点 。 例如 ,在 绿色 簇 中 ,所 有 数据 的 中 心 点 应 该 更 低 一 些 ， 因 此 需要 将 中 心 点 向 下 移动 
一 点 。 红 色 簇 中 只 有 一 个 点 ， 所 以 中 心 点 应 该 移动 到 这 个 点 所 在 的 位 置 。 蓝 色 簇 中 的 中 心 点 基本 
上 就 在 中 心 ， 所 以 只 要 稍稍 移动 一 下 就 好 。 表 经 过 一 轮 操作 ， 可 以 得 到 图 D。 可 以 看 出 ,红色 的 
簇 增 大 了 一 点 ， 这 是 因为 从 绿色 簇 中 拿 走 了 一 个 点 。 

接 下 来 ,你 应 该 知道 会 发 生 什 么 。 绿 色 中 心 点 会 移动 一 下 ， 蓝 色 中 心 点 差不多 还 在 原 地 。 但 
最 后 我 们 将 得 到 预计 的 簇 。 这 就 是 大 均值 聚 类 的 做 法 。 只 要 一 直 做 下 去 , 不 断 找 出 正确 的 中 心 点 ， 
直到 中 心 点 不 再 改变 ， 就 能 得 出 最 后 的 结果 。 

































































K 均 值 聚 类 注意 事项 
在 进行 均值 素 类 时 ,需要 注意 一 些 问题 ， 列 举 如 下 。 


(1)k 的 选择 : 首先 , 需要 选择 正确 的 大 值 , 这 可 不 是 一 件 人 简单 的 事情 。 选择 的 主要 方法 是 ， 
根据 你 想 要 的 分 组 数量 ， 先 从 一 个 比较 小 的 值 开 始 ， 然 后 逐渐 增加 ， 直 至 方差 不 会 有 大 的 改善 。 
你 可 以 将 每 个 数据 点 到 中 心 点 的 距离 作为 误差 的 度量 方式 ， 当 误差 停止 减 小 时 , 可 能 是 簇 的 数量 
太 多 了 。 所 以 这 时 继续 增加 簇 不 会 获得 更 多 信息 。 


(2) 避免 局 部 最 小 值 : 还 有 局 部 最 小 值 的 问题 。 在 第 一 次 选择 中 心 点 时 ， 你 可 能 非常 不 走运 ， 
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导致 算法 收敛 到 局 部 最 优 ， 而 不 是 全 局 最 优 。 所 以 ,通常 的 做 法 是 进行 多 次 磊 均值 聚 类 ， 然 后 将 
结果 平均 化 。 我 们 称 这 种 做 法 为 集成 学 习 ， 后 面 将 会 做 更 多 介绍 。 使 用 不 同 的 随机 初始 值 ， 多 次 
进行 上 均值 聚 类 总 是 一 种 好 的 做 法 ， 你 可 以 看 看 是 否 每 次 都 能 得 到 同样 的 结果 。 


(3) 标记 繁 : 均值 从 类 中 的 最 后 一 个 主要 问题 是 , 簇 是 没有 标记 的 。 它 只 能 告诉 你 簇 中 的 数 
据点 是 按照 某 种 形式 相关 的 ， 但 你 不 能 给 簇 命 名 。K 均 值 聚 类 不 能 告诉 你 每 个 复 的 意义 。 如 果 我 
们 有 一 组 电影 ,均值 素 类 可 能 会 将 科幻 电影 聚 成 一 个 艇 ,但 它 不 会 告诉 我 们 这 个 徐 是 “科幻 ”。 
需要 我 们 自己 去 研究 数据 ， 找 出 每 个 徐 的 意义 ， 以 及 如 何 用 语言 去 描述 。 这 部 分 工作 相当 困难 ， 
K 均 值 聚 类 在 这 方面 不 会 有 帮助 。 通 过 scikit-learn 可 以 非常 容易 地 完成 上 均值 聚 类 。 


下 面 举 个 例子 实际 应 用 一 下 均值 聚 类 。 


5.6 ”基于 收入 与 年 龄 进行 人 群 聚 类 
下 面 来 看 看 使 用 Python 和 scikit-learn 实现 均值 聚 类 有 多 么 容易 。 


第 一 步 是 创建 要 至 类 的 随机 数据 。 简 单 起 见 , 我 们 将 在 虚构 数据 中 建立 儿 个 徐 , 假装 数据 之 
间 存 在 着 基本 的 联系 ， 而 且 确 实 存在 儿 个 簇 。 


为 了 达到 这 个 目的 ， 可 以 使 用 Python 编写 一 个 简单 的 函数 createClusteredData(): 


from numpy import random, array 





































































































# 创 建 虚构 的 收入 /年 龄 族 ，N 个 人 上 个 族 
def createClusteredDatal(N, k): 
random.seed(10) 
pointsPerCluster = float (N)/k 
X= [] 
for i in range (k): 
incomeCentroid = random.uniform(20000.0, 200000.0) 
ageCentroid = random.uniform(20.0, 70.0) 
for j in range(int (pointsPerCluster)): 
XxX.append([random.normal (incomeCentroid, 10000.0), 
random.normal (ageCentroid, 2.0)]) 
xX = array (X) 
return Xx 





这 个 函数 首先 设 定 了 一 个 固定 的 随机 数 种 子 , 这 样 每 次 运行 时 都 会 得 到 同样 的 结果 。 我 们 想 
创建 Y 个 人 人， 分布 在 下 个 复 中 ， 所 以 将 N 和 传递 给 函数 createclusteredqData()。 

代码 先 找 出 每 个 簇 中 有 多 少 个 数据 点 ， 并 将 这 个 值 保 存在 pointsPercluster 中 。 然 后 ， 
建立 一 个 空 列表 X。 对 于 每 个 复 ， 都 创建 一 个 随机 的 收入 中 心 点 ( ijncomeCentroiqd )， 其 值 在 
20 000 美元 和 200 000 美元 之 间 ， 还 有 一 个 年 龄 中 心 点 (agecentroid )， 其 值 在 20 和 70 之 间 。 


我 们 创建 一 个 散 点 图 ， 展 示 出 N 个 人 和 k 个 簇 的 虚构 的 收入 和 年 龄 数据 。 对 于 每 个 随机 创建 
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的 中 心 点 ， 都 为 其 创建 一 组 服从 正 态 分 布 的 随机 数据 ,收入 的 标准 差 为 10000, 年 龄 的 标准 差 为 
2。 这 样 ， 我们 就 预 置 了 一 些 随机 的 艇 ,用 来 聚集 年 龄 和 收入 数据 。 好 了 ， 可 以 运行 一 下 代码 了 。 


现在 ， 实 际 进 行 一 下 大 均值 聚 类 ， 非 常 容 易 。 


from sklearn.cluster import KMeans 
import matplotlib.pyplot as plt 

from sklearn.preprocessing import scale 
from numpy import random, float 








data = createClusteredData(100, 5) 
model = KMeans (n_clusters=5) 


# 请 注意 ， 我 对 数据 进行 了 标准 化 ! 为 了 取得 好 的 结果 ， 这 个 操作 非常 重要 
model = model.fit(scale(data)) 


# 可 以 看 一 下 每 个 数据 点 被 分 配 到 了 哪个 族 中 
print model.labels_ 


# 对 数据 进行 可 视 化 : 

plt.figure (figsize=(8, 6)) 

plt.scatter(data[:,0], datal[l:,1], c=model.labels_.astype (float)) 

plt.show!() 

我 们 要 做 的 是 从 scikit-learn 的 cluster 包 中 导入 KMeans 了 哺 数 ， 还 需要 导入 matplot1ib 
进行 数据 可 视 化 ， 以 及 导入 scale 函数 用 于 数据 缩放 。 


我 们 先 使 用 createclusteredData () 函数 创建 了 100 个 随机 分 布 的 个 人 ， 分 别 分布 在 5 
个 复 中 ， 所 以 数据 中 应 该 有 5 个 复 。 然 后 使 用 kMeans 函数 创建 了 一 个 上 = 5 的 模型 ， 选 择 艇 的 
个 数 为 5， 因为 我 们 知道 只 有 5 个 徐 。 再 强调 一 下 ， 在 非 监督 式 学 习 中 ， 你 不 一 定 知道 真实 的 下 
值 ， 而 是 需要 通过 迭代 找 出 最 合适 的 值 。 接 下 来 使 用 现 有 数据 调用 模型 的 moael .fit 函数 。 


本 书 前 面 提 到 过 的 scale 函数 可 以 对 数据 进行 标准 化 .均值 聚 类 的 一 个 重要 特点 就 是 在 标 
准 化 的 数据 上 效果 最 好 。 标准 化 使 所 有 数据 都 是 同一 尺度 。 这 个 例子 存在 一 个 问题 ， 就 是 年 龄 
的 值 在 20 和 70 之 间 ， 而 收入 的 值 最 大 可 以 达到 200 000， 所 以 这 两 种 数据 无 法 互相 比较 ， 收 入 
值 远 远大 于 年 龄 值 。scale 函数 可 以 将 所 有 数据 变换 为 统一 的 尺度 , 以便 我 们 一 一 进行 比较 , 这 
对 大 均值 聚 类 的 结果 非常 重要 。 

调用 了 模型 的 fit 方法 之 后 ， 便 可 以 看 到 最 后 结果 中 的 标记 。 然 后 可 以 使 用 matplot1lib 
的 强大 功能 , 将 数据 以 可 视 化 的 方式 表示 出 来 。 从 代码 中 可 知 , 我们 使 用 了 一 点 小 技巧 ,将 分 配 
给 每 个 复 的 颜色 标记 转换 成 了 浮 点 数 ， 这 种 技巧 可 以 将 任意 颜色 转换 为 数值 。 结 果 如 下 。 
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代码 的 运行 时 间 不 是 很 长 。 可 以 看 出 ,结果 和 预 设 基本 一 人 致 。 在 我 们 虚构 的 数据 中 ,已 经 预 
设 了 儿 个 簇 , 均值 罕 类 很 容易 就 识别 出 了 第 一 个 和 第 二 个 簇 。 但 是 , 之 后 算法 遇 到 了 一 点 困难 ， 
因为 图 形 中 间 的 两 个 簇 挨 得 很 近 , 彼此 之 间 界 限 不 是 很 分 明 ， 这 对 于 均值 聚 类 是 个 挑战 。 尽 管 
如 此 ， 结 果 还 是 不 错 的 。 在 这 个 例子 中 ， 可 能 4 个 簇 更 合适 一 些 。 





























练习 


这 次 的 练习 是 试 试 不 同 的 x 值 ， 看 看 会 有 什么 结果 。 用 肉眼 观察 一 下 前 面 的 图 ， 似 乎 4 个 簇 
效果 会 更 好 。 真 的 是 这 样 吗 ?” 如 果 将 增加 到 特别 大 , 会 出 现 什么 情况 ?结果 会 怎样 ? 算法 会 将 
数据 进行 什么 样 的 划分 ” 这 种 划分 还 有 意义 吗 ? 去 试 试 不 同 的 磊 值 吧 。 在 函数 n_clusters () 
中 , 将 5 改 成 别 的 值 ， 重 新 运行 代码 ， 看 看 会 是 什么 结果 。 


这 就 是 均值 聚 类 ， 非 常 简 单 ， 你 可 以 使 用 scikit-learn 的 cluster 包 中 的 KMeans 函数 来 
实现 。 需 要 注意 的 一 点 是 ,一定 要 对 数据 进行 缩放 以 达到 标准 化 。 在 应 用 大 均值 聚 类 时 ， 一 定 要 
使 数据 能 够 互相 比较 ， 可 以 使 用 scale () 函数 对 数据 进行 缩放 。 这 就 是 均值 聚 类 的 主要 内 容 ， 
它 的 概念 非常 简单 ， 使 用 scikit-learm 实现 起 来 更 加 简单 。 


如 果 你 有 一 堆 未 分 类 数据 ， 而 且 事 先 不 知道 正确 的 分 类 , 那么 上 均值 聚 类 就 是 一 种 非常 合适 
的 方法 , 它 可 以 找 出 数据 中 有 趣 的 分 组 , 或 许可 以 增进 你 对 数据 的 了 解 。 这 是 一 种 非常 好 的 工具 ， 
我 在 实际 工作 中 使 用 过 ， 用 起 来 并 不 难 ， 你 们 都 应 该 掌握 它 。 

















































































































5.7 灶 的 度量 


我 们 马上 就 要 讨论 机 融 学 习 中 最 有 趣 〈 至 少 我 认为 是 这 样 ) 的 一 个 部 分 了 ， 那 就 是 决策 树 。 
但 是 ， 在 讨论 决策 树 之 前 ， 有 必要 先 介绍 一 下 数学 科学 中 录 的 概念 。 
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就 像 在 物理 学 和 热力 学 中 一 样 ， 炳 是 度量 一 个 数据 集 混乱 程度 即 数据 间 相 似 或 差异 程度 ) 
的 一 个 指标 。 例如 ,假设 我 们 有 一 个 表示 不 同 动物 分 类 的 数据 集 ， 其 中 有 很 多 按照 物种 进行 分 类 
的 动物 。 如 果 数 据 集中 的 所 有 动物 都 是 申 鳞 蜥 ， 那 么 它 的 粮 就 很 小 ， 因 为 所 有 动物 都 是 一 样 的 。 
如 果 数 据 集中 每 个 动物 都 是 不 同 的 ， 比 如 有 蝶 鳞 蜥 、 猪 、 树 懒 或 其 他 稀奇 古怪 的 动物 ,那么 数据 
集 的 精 就 很 高 ， 因 为 它 更 混乱 ， 比 前 一 种 情况 具有 更 多 差异 。 


入 是 度量 数据 间 相 似 程度 或 差异 程度 的 一 种 方式 。 焙 为 0 意味 着 所 有 数据 都 是 相同 的 ,如 果 
所 有 数据 都 不 相同 ,那么 业 就 会 很 大 。 如 果 数 据 间 有 些 是 相同 的 ,那么 焙 就 是 一 个 中 间 值 。 焙 是 
用 来 描述 数据 集 的 相似 或 差异 程度 的 。 


在 数学 上 ， 灶 的 定义 要 更 复杂 一 些 ， 如 果 要 计算 出 灶 的 值 ， 可 以 使 用 以 下 公式 。 
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H(S)= -pilnp,—…-p, lp, 
pi; 表示 每 个 类 别 数据 在 总 数据 中 的 比例 


对 于 数据 中 的 每 个 不 同类 别 , 可 以 用 pi,po,…, ps 来 表示 , p 表示 这 个 类 别 中 的 数据 在 全 体 数 
据 中 的 比例 。 如 果 将 每 个 - pi* ln * pi 绘制 出 来 ,就 可 以 得 到 类 似 下 面 的 图 形 。 
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Pr(x = 1) 























将 每 个 类 别 的 值 相 加 。 例如， 如 果 某 个 类 别 的 数据 比例 是 0， 那么 它 对 整个 炉 的 贡献 就 是 0。 
如 果 某 个 类 别 的 数据 就 是 全 体 数据 ,那么 它 对 整个 灶 的 贡献 也 是 0。 因 为 不 论 是 这 个 类 别 中 没有 
数据 ， 还 是 这 个 类 别 就 是 全 体 数据 ， 它 都 不 会 对 整个 依 有 什么 贡献 。 

只 有 在 中 间 情 况 下 , 这 个 类 别 才 对 焙 有 贡献 ,这 时 候 数 据 集 是 这 个 类 别 和 其 他 类 别 数据 的 混 
合体 。 如 果 把 这 些 项 加 在 一 起 ,就 能 得 到 整个 数据 集 的 炉 。 数 学 上 就 是 这 样 计算 粹 的 , 它 的 概念 
非常 简单 。 炉 就 是 度量 数据 集 混乱 程度 、 数 据 间 相似 或 差异 程度 的 一 种 方式 。 







































































5.8 决策 树 一 一 概念 
信 不 信 由 你 ,给 定 一 组 训练 数据 ， 可 以 使 用 Python 生成 一 个 流程 图 来 进行 决策 。 如 果 想 预 














5.8 决策 树 一 一 概念 125 





测 数 据 分 类 , 可 以 使 用 决策 树 来 检查 数据 的 多 个 特性 ,这 些 特性 可 以 在 流程 图 的 每 个 水 平 上 确定 。 
你 可 以 将 流程 图 打印 出 来 ,基于 真正 的 机 带 学 习 来 进行 决策 。 这 是 多 棒 的 事情 响 ! 下 面 我 们 来 看 
看 决策 树 的 原理 。 


我 个 人 认为 决策 树 是 机 器 学 习 中 最 有 趣 的 应 用 之 一 。 决 策 树 可 以 为 你 生成 一 张 流程 图 来 说 明 
如 何 进 行 决策 。 你 有 一 些 独立 的 变量 ， 比 如 根据 天 气 状态 决定 是 否 出 去 玩 。 如 果 你 有 一 个 决策 问 
题 需 要 考虑 多 个 属性 或 多 个 变量 ， 那 么 决策 树 就 是 很 好 的 选择 。 


有 很 多 天 气 因 素 可 以 影响 是 否 出 去 玩 的 决定 ， 比 如 湿度 、 温 度 、 上 晴天 与 否 ， 等 等 。 决 策 树 可 
以 检查 所 有 不 同 的 天 气 属性 和 其 他 因素 。 每 种 因素 的 国 值 是 多 少 ? 在 做 出 是 否 出 去 玩 的 决定 之 
前 ， 对 于 这 些 属性 需要 进行 何 种 决策 ?这 就 是 决策 树 的 作用 ， 它 是 一 种 监督 式 学 习 方法 。 


使 用 决策 树 解 决 这 个 问题 的 方式 如 下 。 我 们 有 一 个 包含 历史 天 气 以 及 人 们 在 某 一 天 是 否 外 出 
活动 的 数据 集 。 我 们 要 在 模型 中 包括 每 天 是 否 晴 天 、 湿 度 是 多 少 、 是 否 大 风 、 是 否 适合 外 出 活动 
这 些 信息 。 使 用 这 些 训 练 数据 ,决策 树 算法 可 以 得 出 一 个 树 形 流程 图 ， 打 印 出 来 后 ， 就 是 下 面 这 
张 图 。 基于 现 有 数据 ,你 可 以 通过 这 张 图 确定 某 一 天 是 否 适合 外 出 活动 ， 并 使 用 它 来 对 新 的 数据 
进行 预测 。 













































































































































































很 棒 吧 ? 这 个 算法 可 以 基于 观测 数据 自动 生成 一 张 流程 图 。 但 更 棒 的 是 , 一 旦 你 掌握 了 它 的 
原理 ， 实 现 整 个 过 程 就 会 非常 简单 。 
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5.8.1 决策 树 实例 


假设 我 们 想 建立 一 个 根据 简历 信息 进行 自动 过 滤 的 系统 。 科 技 公司 面临 的 一 个 大 问题 就 是 会 
收 到 海量 的 求职 简历 , 我 们 必须 确定 哪些 人 可 以 接受 面试 ,因为 找 出 一 些 人 来 接受 面试 的 成 本 非 
常 高 。 是 否 有 一 种 方法 ， 可 以 根据 公司 以 前 的 录用 记录 ， 来 确定 接受 哪些 简历 呢 ? 

可 以 创建 一 棵 决策 树 ， 帮助 我 们 检查 简历 ,然后 确定 哪些 人 有 很 大 的 可 能 性 被 录用 。 使 用 历 
史 数 据 来 训练 决策 树 ， 并 用 决策 树 来 筛选 新 的 申请 人 。 这 种 做 法 简直 太 棒 了 ! 


下 面 来 虚构 一 些 录 用 数据 以 供 这 个 例子 使 用 。 



































申请 人 ID | 工作 经 验 | 是 否 在 职 | 前 雇主 数 | 教育 水 平 















































上 面 表格 中 列举 了 一 些 用 数值 标识 符 进行 标识 的 职位 申请 人 ,我 们 选择 了 一 些 可 以 用 来 预测 
申请 人 能 否 被 录用 的 属性 ， 包 括 工作 经 验 、 是 否 在 职 、 前 雇主 数 、 教 育 水 平 、 是 否 名 校 毕 业 ， 以 
及 是 否 有 实习 经 历 。 检查 一 下 这 份 历史 数据 , 其 中 的 因 变 量 是 Hired, 表示 该 申请 人 最 终 是 否 被 
录用 。 


很 显然 , 还 有 很 多 非常 重要 的 因素 没有 包括 在 这 个 模型 中 , 但 根据 这 份 数据 训练 出 的 决策 树 
应 该 对 申请 人 的 初 选 非常 有 用 。 我 们 会 得 到 如 下 所 示 的 一 棵 决策 树 。 












































是 否 有 实习 经 历 ? 














否 是 





| 是 否 在 职 ? 








三 


证 





前 雇主 少 于 1 个 ? 
否 














是 
不 录用 ! 
是 否 名 校 毕业 ? 




















不 录用 ! 他 怎 录用 | 
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口 我 们 发 现 ， 在 全 部 虚构 数据 中 ， 有 过 实习 经 历 的 申请 人 都 被 录用 了 。 所 以 ， 第 一 个 决策 
点 就 是 “是 否 有 实习 经 历 ”， 如 果 有 ， 就 直接 录用 。 以 我 自己 的 经 验 来 看 ， 实 习 经 历 确实 
可 以 非常 好 地 预测 一 个 人 是 否 优秀 。 如 果 他 有 走出 校园 进行 实习 的 主动 精神 ， 并 从 实习 
过 程 中 真正 学 到 了 一 些 东 西 ， 那 么 这 是 一 个 非常 好 的 迹象 。 

口 他 们 现在 有 工作 吗 ? 如 果 申请 人 现在 有 工作 ， 那 么 在 我 们 这 个 非常 小 的 虚构 数据 集中 ， 
这 个 人 非常 值得 录用 ， 因 为 别人 也 认为 他 值得 录用 。 显 然 ， 在 现实 世界 中 ， 还 需要 考虑 
得 更 周全 一 些 。 

口 如 果 他 们 现在 没有 工作 ， 那 么 他 们 的 前 雇主 少 于 1 个 吗 ? 如 果 是 的 ， 那么 这 个 人 就 从 来 

没有 一 份 正 式 工作 或 实习 经 历 。 录 用 这 个 人 悉 怕 不 是 一 个 好 主意 。 不 应 该 录用 这 样 的 人 。 

口 如 果 他 们 有 过 前 雇主 ， 那 么 他 们 是 名 校 毕 业 吗 ? 如 果 不 是 ， 那 就 应 该 再 考虑 一 下 。 如 果 

是 ， 那 就 录用 ， 根 据 训练 数据 ， 应 该 录用 这 样 的 人 。 













































































5.8.2 生成 决策 树 


上 面 就 是 得 出 决策 树 结果 的 过 程 ， 就 像 是 按照 流程 图 做 下 来 一 样 。 算 法 能 够 生成 决策 树 ， 这 
真是 一 件 极 好 的 事情 。 算 法 本 身 非 常 简单 ， 下 面 解释 一 下 它 是 如 何 工 作 的 。 


在 决策 树 流程 图 的 每 个 步骤 中 ,都 要 找到 这 样 一 个 属性 , 它 对 数据 的 划分 使 得 下 一 步 中 的 佼 
是 最 小 的 。 我 们 会 得 到 两 个 分 类 , 在 这 个 例子 中 就 是 录用 和 不 录用 , 我 们 要 在 这 个 步 又 中 确定 一 
个 属性 ， 使 得 下 一 步 的 箭 最 小 。 


在 每 个 步 又 中 , 都 要 使 划分 后 的 两 个 集合 中 确定 录用 或 确定 不 录用 的 人 尽量 多 。 要 使 数据 越 
来 越 统一 ,按照 这 种 方法 继续 做 下 去 ， 直 到 最 终 的 申请 人 集合 中 全 部 是 录用 或 是 不 录用 ,这 样 我 
们 就 可 以 使 用 决策 树 做 出 是 或 否 的 决策 。 要 生成 决策 树 , 就 要 在 每 个 步骤 中 选择 正确 的 属性 使 得 
结果 中 的 炉 最 小 ， 一 直 做 下 去 直至 最 后 。 

这 种 算法 有 个 很 别致 的 名 字 , 叫 作 ID3 ( Iterative Dichotomiser 3 )。 它 是 一 种 贪 梦 算法 , 在 生 
成 树 的 每 个 步骤 中 都 要 选择 使 恼 最 小 的 属性 。 在 给 定数 据 时 , 这 种 算法 不 一 定 能 得 到 一 棵 最 优 的 
树 ， 使 你 需要 做 出 决策 的 次 数 最 少 ， 但 结果 基本 上 令 人 满意 。 




















































































































5.8.3 ”随机 森林 


决策 树 的 一 个 问题 是 非常 容易 过 拟 合 , 你 可 以 生成 一 棵 决策 树 , 它 在 训练 数据 上 的 结果 非常 
漂亮 , 在 对 新 值 预测 分 类 时 效果 却 没有 那么 好 。 决策 树 关 心 的 只 是 对 现 有 的 训练 数据 得 出 正确 决 
策 , 但 它 选择 的 不 一 定 是 正确 的 属性 ， 它 进行 学 习 的 样本 可 能 不 具备 完全 的 代表 性 。 这 会 导致 一 
些 实际 的 问题 。 


为 了 解决 这 个 问题 , 我 们 使 用 一 种 称 为 随机 森林 的 技术 。 它 的 做 法 是 使 用 不 同 的 方法 从 训练 
数据 中 进行 抽样 , 然后 生成 多 棵 决策 树 。 每 棵 决策 树 都 是 通过 对 训练 数据 的 随机 抽样 数据 得 出 的 。 
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随后 ， 这 些 决 策 树 再 进行 投票 ， 决 定 最 后 的 结果 。 


这 种 对 同一 模型 的 数据 进行 多 次 随机 抽样 的 技术 称 为 自助 聚集 ,或 称 装 袋 。 这 是 集成 学 习 的 
一 种 形式 ,我 们 随后 会 详细 介绍 。 随 机 森林 的 基本 思想 就 是 生成 多 棵 树 ， 用 训练 数据 的 随机 样本 
生成 每 一 棵 树 ， 并 组 成 木林。 然后， 每 棵 树 对 最 终结 果 进 行 投 票 ， 这 可 以 使 我 们 消除 对 训练 数据 
的 过 拟 合 。 


随机 森林 能 做 的 另 一 件 事 是 ， 在 每 个 阶段 中 试图 使 焙 最 小 化 的 同时 限制 可 选择 属性 的 数量 。 
我 们 可 以 随机 选择 一 些 在 每 个 水 平 上 使 用 的 属性 , 这 样 可 以 增加 树 的 多 样 性 ,从 而 使 算法 更 加 丰 
富 ， 并 在 彼此 之 间 进 行 竞争 。 它 们 可 以 使 用 殊途同归 的 方法 对 结果 进行 投票 。 

这 就 是 随机 森林 的 工作 原理 。 总 的 说 来 , 随机 森林 就 是 一 组 决策 树 组 成 的 森林 ， 其 中 每 棵 树 
都 来 自 于 不 同 的 样本 数据 ， 每 个 阶段 能 够 选择 的 属性 集 也 不 相同 。 


下 面 来 练习 一 下 决策 树 ， 然 后 再 使 用 一 下 随机 森林 ，scikit-learn 可 以 非常 容易 地 实现 它们 。 



















































































5.9 决策 树 一 一 使 用 Python 预测 录用 决策 


事实 证 明 ， 生 成 决策 树 非 常 容 易 ， 实 际 上 是 意 想不到 的 容易 ， 只 需 几 行 Python 代码 就 能 完 
成 o 来 试 一 下 o 

本 书 附带 的 文件 中 包括 一 个 PastHires.csv 文件 , 里 面 是 一 些 我 虚构 的 基于 申请 人 的 属性 决定 
其 是 否 被 录用 的 数据 。 

import numpy as np 


import pandas as pd 
from sklearn import tree 



































input_file = "c:/spark/DataScience/PastHires.csv" 
df = pd.read csv(input_file, header = 0) 


你 应 该 将 代码 中 的 路 径 (c:/spark/DataScience/PastHires.csv ) 修改 为 你 存放 该 文件 的 目录 。 我 
不 确定 你 放 在 了 哪里 , 但 肯定 不 是 这 个 目录 。 








使 用 pandas 来 读 取 CSV 文件 ， 并 创建 一 个 数据 框 对 象 。 运 行 上 面 的 代码 ， 然 后 使 用 数据 
框 的 nead() 函数 输出 前 几 行 数据 ， 确 定 我 们 的 代码 有 效 。 
df.head() 





结果 显然 是 有 效 的 。 
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Mi Years Experience | Employed? | Previous employers | Level of Education | Top-tier school | Interned | Hired 
0|10 下 4 BS N N 4 
1I0 N 0 BS % Y 第 
2|7 N 6 BS N N N 
3|2 a 1 MS Y N 由 
4|20 N 2 PhD Ye N N 





























对 于 每 个 申请 人 ID， 这 里 都 有 他 们 的 工作 经 验 、 是 否 在 职 、 前 雇主 数 、 最 高 教育 水 平 、 是 否 
名 校 毕 业 ， 以 及 是 否 有 实习 经 历 的 数据 。 最 后 , 在 Hired 列 中 , 保存 着 最 终结 是 否 被 录用 。 


通常 , 最 大 的 工作 量 在 于 真正 运行 算法 之 前 的 处 理 数据 和 准备 数据 阶段 , 这 也 是 下 面 我 们 要 
做 的 工作 。scikit-learn 要 求 每 个 属性 都 是 数值 型 ， 所 以 不 能 有 Y、N、BS、MS 和 PhD 这 样 的 数据 。 
我 们 必须 将 它们 转换 为 数值 型 以 使 决策 树 模 型 能 够 运行 。 可 以 使 用 pangas 中 提供 的 快捷 转换 方 















































法 ， 这 非常 容易 ， 例 如 : 
a EA A 0 
df['Hired'] = df['Hired'] .map(d) 
df['Employed?'] = df['Employed?'] .map(d) 
df['Top-tier school'] = df['Top-tier school'] .map(d) 
df['Interned'] = df['Interned'] .map(d) 
二 证 
df['Level of Education'] = df['Level of Education'] .map(d) 
df.head() 

















简单 地 说 , 我 们 建立 一 个 Python 字典 , 将 字母 Y 映射 为 数值 1, 将 字母 N 映射 为 0, 也 就 是 
说 ， 要 将 所 有 的 Y 转换 为 1，N 转换 为 0。 所 以 ,转换 后 的 1 表示 是 ，0 表示 否 。 我 们 对 数据 框 
中 的 Hired 列 调用 map () 函数 ， 并 用 字典 作为 参数 。 这 个 函数 会 遍历 整个 Hired 列 , 使 用 字典 
检查 可 以 转换 的 项 目 ， 返回 一 个 新 的 数据 框 列 ， 代 蔡 原 来 的 Hired 列 。 原 来 的 Hired 列 就 被 替 
换 为 转换 后 包含 1 和 0 的 列 。 


对 是 否 在 职 、 是 否 名 校 毕业 和 是 否 有 实习 经 历 各 列 进行 同样 的 操作 , 这 些 列 都 使 用 上 面 的 字 
典 进行 映射 转换 ，Y 入 都 被 转换 为 1 和 0。 对 于 教育 水 平 ， 也 进行 同样 的 转换 ,创建 一 个 字典 
将 Bs 映射 为 0，Ms 映射 为 1，PhD 映射 为 2， 并 使 用 这 个 字典 将 学 位 名 称 重新 映射 为 数值 。 如 
果 运 行 上 面 的 代码 ， 并 再 次 使 用 heag () 函数 ， 那 么 可 以 看 到 数据 确实 转换 成 功 了 。 









































Out[3]: Years Experience | Employed? | Previous employers | Level of Education | Top-tier School | Interned 
10 1 4 0 0 0 
| 
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所 有 的 Y 都 转换 成 了 1，N 都 转换 成 了 0， 教 育 水 平 也 由 一 个 具有 实际 意义 的 数值 型 数据 来 


表示 。 


下 一 步 需要 将 所 有 准备 好 的 数据 放 到 决策 树 分 类 器 中 , 这 也 并 不 难 。 要 完成 这 个 操作 ,需要 
把 特征 信息 用 来 进行 预测 的 属性 ) 和 目标 列 〈 需 要 预测 的 数据 ) 分 离开 。 要 提取 出 特征 名 称 ， 


只 需 创建 一 个 列表 ,包含 数据 框 的 前 6 列 名 称 即 可 。 运 行 下 面 


features = list(df.columns[:6]) 
features 


结果 如 下 。 








的 代码 ， 打 印 出 结果 。 





Out{[4]: ['Years Experience’, 
"Employed?", 
"Previous employers', 
“Level of Education", 
"Top-tier school', 
"Interned'’] 





























以 上 就 是 包含 特性 信息 的 列 名 : 工作 经 验 、 是 否 在 职 、 前 雇主 数 、 教 育 水 平 、 是 否 名 校 毕业 











和 是 否 有 实习 经 历 。 这 就 是 用 来 预测 录用 决策 的 申请 人 属性 。 
下 面 创建 y 向 量 ， 并 赋 给 它 要 预测 的 内 容 ， 即 Hireq 列 : 


y df ["Hired"] 

x df [features] 

clf = tree.DecisionTreeClassifier() 
CELE 三 -1 下 二 二 (区 2 


这 段 代码 提取 出 整个 Hireg 列 ， 并 称 其 为 yY。 然 后 将 所 有 特 和 








人 





F 列 放 在 一 个 称 为 x 的 对 象 中 ， 这 


























是 一 个 所 有 特征 数据 的 集合 。 决 策 树 分 类 器 需要 的 就 是 X 和 y 











这 两 个 对 象 。 





要 想 创建 分 类 器 ， 只 需 两 行 代码 : 调用 tree .DecisionTreeClassifier () 清 数 创 建 分 类 
峰 ， 然 后 使 用 特征 数据 ( x) 和 结果 数据 (y， 是 否 被 录用 ) 进行 拟 合 。 来 运行 一 下 上 面 的 代码 。 
要 显示 图 形 数据 有 点 难度 , 而且 我 们 也 不 想 在 这 些 细节 上 分 心 , 所 以 只 要 按照 下 面 的 代码 模 
板 做 就 可 以 了 , 不 需要 知道 Graphviz 是 干什么 的 ， 以 及 dot 文 件 等 的 意义 : 它们 对 于 现在 的 学 习 




















还 不 是 很 重要 。 显 示 最 后 决策 树 结果 的 代码 非常 简洁 : 


from IPython.display import Image 
from sklearn.externals.six import StringIO 
import pydot 





dot_data = StringIO() 
tree.export_graphviz (clf, out_file=dot_data, 

feature names=features) 
graph = pydot.graph_from dot_data(dot_ data.getvaluel( 
Image (graph.create_png()) 


) ) 
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运行 上 面 的 代码 。 
结果 如 下 。 





Employed? <= 0.5 
gini= 0.426 
samples = 13 
value = [4, 9] 


Interned <= 0.5 


gini= 0.5 

8 samples = 5 
stmples—8 Nar [0, 5] 
value = [4, 4] a 


Years Experience <= 0.5 


gini= 0.32 ne 


samples = 3 


samples = 5 Se 
value = [4, 1] value = [0, 3] 





Level of Education <= 1.0 
gini= 0.5 


samples =2 sap € 
value = [1, 1] value = [3, 0] 


gini= 0.0 
samples = 3 


sini= 0.0 sini= 0.0 
samples = 1 samples = 1 
value = [1, 0] value = [0, 1] 














大 功 告 成 ! 太 棒 了 ! 我 们 得 到 了 一 张 真实 的 流程 图 。 


下 面 解释 一 下 这 张 图 。 在 每 个 阶段 ， 我 们 都 需要 做 一 个 决策 。 请 记 住 我 们 的 数据 大 多 是 Y 
和 NN, 已 经 被 转换 成 了 1 和 0。 第 一 个 决策 点 是 : 是 否 在 职 ?小 于 0.5 吗 ? 其 含义 是 ， 如 果 是 否 
在 职 的 值 是 0， 也 就 是 不 在 职 ,那么 向 左 走 ; 如 果 是 否 在 职 的 值 是 1， 也 就 是 在 职 , 那么 向 右 走 。 

他 们 是 否 有 工作 ? 如 果 没 有 就 去 左边 , 如 果 有 就 去 右边 。 这 说 明 在 我 们 的 样本 数据 中 , 现在 
有 工作 的 人 都 得 到 了 录用 , 所 以 可 以 非常 确定 地 说 , 如 果 你 现在 有 工作 , 那么 好 的 , 你 值得 录用 ， 
可 以 讨论 第 二 个 阶段 了 。 

应 该 如 何 理解 上 面 的 步 又 呢 ? gini 就 是 在 每 一 步 中 用 来 度量 糯 的 指标 ， 你 应 该 记得 我 们 的 算 
法 就 是 要 使 炉 的 总 量 最 小 。samples 是 指 经 过 前 面 的 决策 后 还 没有 被 明确 分 类 的 样本 数量 。 
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假如 一 个 人 现在 在 职 。 右 边 叶子 节点 中 的 value 表示 当前 有 0 个 申请 人 未 被 录用 ，5 个 申请 
人 被 录用 。 所 以 ， 第 一 个 决策 点 可 以 这 样 理解 : 如 果 是 否 在 职 为 1， 就 应 该 去 右边 ( 表示 申请 人 
在 职 )， 这 时 的 情况 是 所 有 人 都 被 录用 ， 所 以 应 该 录用 这 个 人 。 


如 果 这 个 人 现在 没有 工作 , 那么 需要 检查 的 另 一 个 属性 就 是 他 是 否 有 实习 经 历 。 如 果 有 实习 
经 历 ， 在 我 们 的 训练 数据 中 ， 所 有 这 样 的 人 都 被 录用 了 ， 所 以 可 以 说 这 时 的 炉 是 0 
(gini=0.0000 )， 因 为 所 有 人 都 是 一 样 的 ， 都 被 录用 了 。 但 是 ， 如 果 继 续 向 下 的 话 ( 当 这 个 人 
没有 实习 经 历时 )， 这 时 的 是 0.32， 它 变 得 越 来 越 小 ， 这 是 个 好 事情 。 

下 一 步 要 检查 一 下 他 有 多 少 工作 经 验 , 工作 经 验 是 否 小 于 1 年 ? 如 果 他 有 一 些 工 作 经 验 , 但 
至 今 还 没 找到 工作 , 那 最 好 不 要 录用 他 。 这 时 的 和 是 0, 但 训练 集中 剩余 的 3 个 样本 都 是 不 录用 ， 
有 3 个 不 录用 ,0 个 录用 。 如 果 他 基本 没有 工作 经 验 , 那 他 很 可 能 刚 大 学 毕业 ,还 值得 继续 考察 。 

最 后 要 检查 的 一 个 属性 是 是 否 名 校 毕 业 ， 如 果 是 ， 就 录用 ， 如 果 不 是 ， 就 不 录用 。 如 果 不 是 
名 校 毕业 ， 这 时 只 有 一 个 申请 人 样本 ， 这 个 类 别 中 有 1 个 录用 ，0 个 不 录用 。 相 反 ， 在 名 校 毕业 
的 情况 下 ， 有 0 个 不 录用 和 1 个 录用 。 


所 以 ， 就 这 样 一直 做 下 去 ， 直 到 焙 为 0， 考虑 各 种 可 能 ， 各 种 情况 。 












































































































































5.9.1 集成 学 习 一 一 使 用 随机 森林 


下 面 练习 使 用 随机 森林 ， 因 为 我 们 担心 会 对 训练 数据 过 拟 合 。 实 际 上 , 创建 一 个 包含 多 棵 决 
策 树 的 随机 森林 非常 简单 。 

要 使 用 随机 森林 ， 可 以 使 用 与 前 面 一 样 的 数据 。 只 需要 x 向 量 和 y 向 量 ， 它 们 分 别 是 特征 
集合 和 要 预测 的 目标 列 : 


from sklearn.ensemble import RandomForestClassifier 


























clf = RandomForestClassifier(n estimators=10) 
Clif Ss GLE fit(X, YY) 


# 预测 一 位 有 10 年 工作 经 验 、 目 前 在 职 的 求职 者 能 否 被 录用 

DELnt. CLF,Breodret (lll ly, dO jv05 .01 

# 同样 是 10 年 工作 经 验 ， 如 果 目 前 不 在 职 呢 

Brint. Lf Preet Ghd 0 4 OF O00 

还 是 通过 scikit-learn 建立 一 个 随机 森林 分 类 器 ,然后 传 给 它 想 在 森林 里 包含 的 树 的 数量 。 在 
上 面 的 代码 中 ， 我 们 在 随机 森林 中 建立 了 10 棵 树 。 然 后 拟 合 模 型 。 

你 不 能 手动 地 用 这 些 树 得 出 结果 , 在 处 理 随 机 森林 时 ， 手 动 无 能 为 力 。 所 以 ， 要 使 用 模型 的 
predict () 函数 ,这 个 模型 就 是 我 们 生成 的 分 类 器 。 对 于 一 个 给 定 的 申请 人 ,要 预测 他 能 否 被 录 
用 ， 将 其 属性 列表 传 给 predict () 函数 即 可 。 
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你 是 否 还 记得 这 些 列 : 工作 经 验 、 是 否 在 职 、 前 雇主 数 、 教 育 水 平 、 是 否 名 校 毕业 、 是 否 有 
实习 经 历 ， 它 们 都 是 以 数值 型 来 表示 的 。 我 们 预测 一 个 具有 10 年 工作 经 验 、 目 前 在 职 的 求职 
和 一 个 具有 10 年 工作 经 验 、 目 前 不 在 职 的 求职 者 的 录用 情况 。 结 果 如 下 。 


[1] 
[1] 


在 这 个 例子 中 ,两 种 情形 下 的 结果 都 是 录用 。 有 趣 的 是 ,结果 中 有 随机 因素 ， 每 一 次 的 结果 
可 能 是 不 同 的 。 在 后 一 种 情形 下 ,结果 往往 是 不 录用 ， 如果 你 多 次 运行 代码 ， 就 会 知道 这 是 通常 
的 情况 。 但是， 由 于 装 袋 或 自助 聚集 的 随机 本 质 ， 我 们 不 可 能 每 次 都 得 到 同样 的 结果 。 所 以 ，10 
棵 树 可 能 还 远 远 不 够 。 不 管 怎 样 ， 我 们 学 到 了 很 多 。 



















































































5.9.2 练习 

为 了 做 练习 ， 你 可 以 回 过 头 去 修改 一 下 输入 数据 ,可 以 天 马 行 空 随心 所 欲 地 修改 代码 ， 比 如 
将 那些 以 前 录用 的 人 都 改 为 不 录用 , 或 者 将 以 前 不 录用 的 人 都 改 为 录用 。 人 然后 , 看 看 决策 树 会 受 
到 什么 影响 。 去 试 试 吧 ， 看 看 结果 如 何 ， 并 解释 一 下 。 

这 就 是 决策 树 和 随机 森林 ,在 我 看 来 ,这 是 机 器 学 习 中 最 有 趣 的 部 分 之 一 。 我 一 直 认为 凭空 
地 生成 一 张 流程 图 是 非常 奇妙 的 事情 ， 和 希望 它 对 你 有 所 帮助 。 





















































5.10 ”集成 学 习 


随机 森林 就 是 集成 学 习 的 一 个 例子 。 在 集成 学 习 中 , 可 以 将 多 个 模型 组 合 在 一 起 ， 以 得 到 比 
任何 一 个 单 模型 都 更 好 的 结果 。 下 面 ， 我 们 更 详细 地 讨论 一 下 集成 学 习 。 


还 记得 随机 森林 吗 ” 随机 森林 中 有 很 多 棵 使 用 输入 数据 的 不 同 子 样本 和 不 同属 性 集 得 出 的 
决策 树 ， 当 确定 最 终 分 类 时 ， 它 通过 投票 得 出 最 终结 果 。 这 就 是 集成 学 习 的 一 个 例子 。 再 举 一 个 
例子 : 均值 聚 类 。 我 们 通过 不 同 的 随机 中 心 点 ， 得 到 多 个 不 同 的 均值 模型 ， 然 后 让 它们 都 对 
最 终结 果 投票 。 这 也 是 集成 学 习 的 一 个 例子 。 


总 体 来 说 , 集成 学 习 的 思想 就 是 : 你 有 不 止 一 个 模型 ,这 些 模型 可 以 是 同类 型 的 , 也 可 以 是 
不 同类 型 的 ,但 你 可 以 在 同样 的 训练 数据 上 运行 它们 ,它们 通过 投票 来 决定 你 要 预测 的 最 终结 
一 般 情况 下 ， 相 比 于 任何 一 个 单 模 型 ,集成 模型 的 结果 会 更 好 。 


Netflix 奖金 是 近年 来 集成 学 习 的 一 个 非常 好 的 例子 。Netflix 举办 了 一 场 竞 赛 , 奖金 高 达 百 万 
美元 , 任何 一 位 可 以 胜 过 他 们 现 有 电影 推荐 算法 的 研究 者 都 可 以 获得 这 份 奖金 。 最 后 赢得 奖金 的 
就 是 集成 算法 ， 它 同时 运行 多 个 推荐 算法 ,并 让 它们 对 最 终结 果 投票 。 所 以 ， 集 成 学 习 是 一 种 非 
常 强大 但 又 非常 简单 的 可 以 提高 机 器 学 习 最 终结 果 质 量 的 方法 。 下 面 介绍 几 种 集成 学 习 方法 。 
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口 自助 聚集 〈 装 袋 ): 随机 森林 使 用 的 方法 称 为 自助 聚集 ， 简 称 装 袋 。 我 们 使 用 这 种 方法 从 
训练 数据 中 提取 出 随机 子 样本 ， 然 后 将 其 装 入 到 同一 模型 的 不 同 版 本 ， 并 让 它们 对 最 终 
结果 进行 投票 。 如 果 你 还 记得 ， 随 机 森林 中 有 多 棵 决策 树 ， 它 们 是 使 用 训练 数据 的 不 同 
子 样本 训练 出 来 的 ， 然 后 它们 一 起 投票 选 出 最 终结 果 。 这 就 是 装 袋 。 

口 提升 : 提升 法 是 另 一 种 生成 模型 的 方法 ， 它 从 一 个 基础 模型 开始 ， 随 后 的 每 个 模型 都 对 

前 面 模型 中 定义 了 误 分 类 区 域 的 属性 进行 提升 。 这 样 , 你 通过 训练 /测试 法 得 到 一 个 模型 ， 

然后 找 出 出 现 错误 的 属性 ， 在 后 面 的 模型 中 对 这 些 属性 进行 提升 ， 即 希望 后 面 的 模型 对 

这 些 属性 给 予 更 多 关注 并 使 其 回 到 正轨 。 这 就 是 提升 法 的 一 般 思 路 。 运 行 一 个 模型 ， 找 

到 它 的 弱点 ， 然 后 对 弱点 给 予 更 多 关注 ， 就 这 样 建 立 越 来 越 多 的 模型 ， 基 于 前 面 模型 的 

弱点 持续 进行 改进 。 

桶 装 模 型 : 男 一 种 集成 学 习 方法 称 为 桶 装 模 型 ， 这 也 是 Netflix 奖金 获得 者 使 用 的 方法 。 

这 种 方法 可 以 使 用 完全 不 同类 型 的 模型 进行 预测 , 比如 均值 模型 、 决 策 树 模型 和 回归 模 

型 。 我 们 可 以 在 训练 数据 上 一 起 运行 这 3 种 模型 ， 并 对 最 终 分 类 结果 进行 投票 。 这 样 得 
出 的 结果 会 比 单独 使 用 任何 一 种 模型 要 好 。 

口 融合 : 融合 模型 与 桶 装 模 型 的 思路 很 相似 ， 也 是 在 数据 上 运行 多 个 模型 ， 然 后 将 结果 以 
某 种 方式 组 合 起 来 。 二 者 的 细微 差别 是 ， 桶 装 模 型 遵循 的 原则 是 胜 者 为 王 ， 它 先 通过 训 
练 /测试 法 找 出 对 数据 效果 最 好 的 模型 ， 然 后 使 用 这 个 模型 。 相 比 之 下 ， 融 合 模型 会 将 所 
有 模型 的 结果 组 合 起 来 得 到 最 终结 果 。 


在 集成 学 习 领域 内 , 现在 的 一 个 方向 是 研究 集成 学 习 的 最 优 方法 , 如 果 你 想 让 方法 听 起 来 很 
高 级 , 通常 做 法 就 是 在 方法 名 称 中 包含 贝 叶 斯 这 个 词 。 现在 有 很 多 集成 学 习 的 高 级 方法 , 但 所 有 
方法 都 有 缺陷 ， 这 也 是 我 们 认为 应 该 使 用 那些 适合 我 们 的 最 简单 方法 的 原因 之 一 。 


现在 的 复杂 方法 太 多 了 ,我 不 可 能 在 本 书 中 完全 介绍 , 总 之 ,这 些 方法 的 效果 也 不 见得 比 前 
面 介绍 过 的 那些 简单 方法 好 。 下 面 就 是 几 种 复杂 的 方法 。 


口 贝 叶 斯 最 优 分 类 器 : 理论 上 ， 能 称 为 贝 叶 斯 最 优 分 类 器 的 方法 肯定 是 效果 最 好 的 ， 但 它 

有 些 不 切实 际 ， 因 为 它 对 计算 能 力 的 要 求 令 人 望而却步 。 

口 贝 叶 斯 参数 平均 : 很 多 人 试图 对 贝 叶 斯 最 优 分 类 器 进行 修改 ,来 使 它 更 可 行 ， 贝 叶 斯 参 
数 平均 就 是 修改 方法 之 一 。 但 它 还 是 容易 出 现 过 拟 合 ， 使 用 与 随机 森林 相同 的 装 袋 方法 
可 以 克服 这 种 现象 ， 只 需 对 数据 进行 多 次 重 抽样 ， 运 行 多 个 不 同 模型 ， 然 后 对 最 终结 果 
进行 投票 。 它 的 效果 与 贝 叶 斯 最 优 分 类 器 一 样 好 ， 但 简单 多 了 。 

口 组 合 贝 叶 斯 模型 : 最 后 ， 还 有 一 种 组 合 贝 叶 斯 模型 ， 它 试图 解决 贝 叶 斯 最 优 分 类 器 和 贝 

叶 斯 参数 平均 的 所 有 问题 。 但 是 ， 它 的 效果 并 没有 比 通过 交叉 验证 找 出 的 模型 组 合 好 到 

哪里 去 。 


以 上 这 些 都 是 复杂 的 方法 ,它们 使 用 起 来 非常 困难 。 实 际 上 , 我们 最 好 还 是 使 用 前 面 详细 讨 
论 过 的 更 简单 的 方法 。 但 是 ， 如 果 你 想 使 方法 听 起 来 更 高 级 一 些 , 或 是 想 使 用 贝 叶 斯 这 个 词 ， 还 
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下 这 些 方法 ， 并 且 知 道 它 们 的 特点 。 

这 就 是 集成 学 习 。 我 们 最 好 还 是 使 用 简单 的 方法 ， 比 如 自助 聚集 ( 装 袋 )、 提 升 、 桶 装 模 型 
或 融合 , 一 般 来 说 它们 是 正确 的 选择 。 还 有 很 多 更 时 瞩 的 方法 ,它们 多 半 不 实用 , 但 至 少 你 应 该 
了 解 一 下 。 

试验 一 下 集成 学 习 总 是 个 好 主意 , 人 们 已 经 屡次 证 明 集 成 学 习 可 以 生成 比 单一 模型 更 好 的 结 
果 ， 所 以 ， 一 定 不 要 忘 了 它 ! 























5.11 支持 向 量 机 简介 


最 后 讨论 一 下 支持 向 量 机 (Support Vector Machine，SVM )， 它 是 一 种 对 高 维 数据 进行 聚集 
和 分 类 的 高 级 方法 。 


如 果 你 想 使 用 具有 多 个 特征 的 数据 进行 了 预测， 那么 SVM 是 完成 这 种 任务 的 一 种 强 有 力 的 技 
术 ， 而 且 结 果 会 出 奇 地 好 ! SVM 的 底层 技术 非常 复杂 ， 但 更 重要 的 是 知道 何 时 使 用 它 ， 以 及 它 
在 更 高 的 层次 上 是 如 何 运 行 的 。 下 面 我 们 介绍 SVM。 


支持 向 量 机 是 一 个 听 上 去 很 高 级 的 名 字 , 实际 上 这 个 概念 也 确实 很 高 级 。 幸 运 的 是 , 它 使 用 
起 来 相当 简单 重要 的 是 知道 它 能 做 什么 以 及 适合 做 什么 ,支持 向 量 机 适合 对 高 维 数据 进行 分 类 ， 
高 维 数据 就 是 那些 有 很 多 特征 的 数据 。 我 们 可 以 很 容易 地 使 用 大 均值 聚 类 对 二 维 数据 进行 聚 类 ， 
比如 一 个 维度 是 年 龄 ， 另 一 个 维度 是 收入 。 但 是 ,如 果 我 们 使 用 有 很 多 很 多 不 同 特征 的 数据 进行 
预测 ， 那 么 应 该 怎么 办 呢 ? 支持 向 量 机 或 许 是 完成 这 种 任务 的 一 种 好 方法 。 


支持 向 量 机 找 出 更 高 维 的 文 持 向 量 来 划分 数据 〈 从 数学 上 来 说 ， 支 持 向 量 定义 了 超 平面 )。 
更 确切 地 说 , 在 数学 上 , 支持 向 量 机 能 够 找 出 更 高 维 的 支持 向 量 ( 这 就 是 这 个 方法 名 称 的 由 来 )， 
由 支持 向 量 定 义 更 高 维 的 平面 来 将 数据 划分 为 不 同 的 簇 。 


显然 , 支持 向 量 机 背后 的 数学 原理 非常 复杂 。 焉 好 ，scikit-learn 包 可 以 为 你 完成 所 有 工 
作 ， 你 不 用 去 搞 清楚 复杂 的 数学 原理 。 但 你 需要 知道 的 是 ,在 底层 它 使 用 了 核 方 法 来 找 出 支持 向 
量 〈 或 超 平面 )， 这 些 文 持 向 量 在 低 维 度 上 是 不 明显 的 。 你 可 以 使 用 多 个 不 同 的 核 方 法 以 不 同 的 
方式 找到 支持 向 量 。 重 点 是 如 果 你 的 数据 是 有 很 多 特征 的 高 维 数据 ， 那 么 SVM 是 一 种 非常 好 的 
选择 。 你 可 以 使 用 不 同 的 核 方法 ,它们 的 计算 成 本 和 适用 问题 都 是 不 同 的 。 













































































































































































重点 是 SVM 使 用 了 一 些 高 级 数学 方法 来 聚集 数据 ， 它 可 以 处 理 带 有 大 量 特征 的 数 
据 集 。 它 使 用 起 来 相当 有 难度 一 “ 核 方法 ”是 实现 SVM 的 关键 。 

















需要 指出 的 是 ，SVM 是 一 种 监督 式 学 习 方 法 。 我 们 需要 使 用 训练 数据 对 其 进行 训练 ， 还 可 
以 使 用 它 对 未 知 数据 或 测试 数据 进行 预测 。 它 和 大 均值 聚 类 有 一 点 差别 , 大 均值 聚 类 是 完 完全 全 
的 非 监督 式 。 相 比 之 下 ,支持 向 量 机 基于 实际 的 训练 数据 进行 训练 , 训练 数据 的 正确 分 类 是 已 知 
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的 ， 可 以 用 来 学 习 。 所 以 ，SVM 泛 合 用 来 进行 分 类 和 聚集 一 如 果 你 愿意 的 话 一 但 它 是 一 种 
监督 式 学 习 方法 ! 


一 个 常见 的 SVM 例子 是 支持 向 量 分 类 ， 这 个 典型 的 例子 使 用 了 scikit-learn 自 带 的 示例 数据 
集 之 一 一 一 高 尾 花 数据 集 。 这 个 数据 集 包含 了 各 种 蕊 尾 花 的 观测 数据 ， 可 以 进行 分 类 。 分 类 思路 
是 按照 每 条 花花 浙 和 莹 片 ( 莹 片 就 是 花 泊 下 面 的 支撑 结构 , 我 以 前 根本 不 知道 ) 的 长 度 和 宽度 来 
进行 划分 。 你 有 4 个 维度 ， 也 就 是 4 个 属性 ， 花 斩 的 长 度 和 宽度 ， 莹 片 的 长 度 和 宽度 。 你 可 以 使 
用 这 些 信息 来 预测 高 尾 花 的 种 类 。 


下 面 是 使 用 SVC ( SVC 是 SVM 的 一 种 形式 ) 进行 分 类 的 示例 : 从 根本 上 来 讲 ， 我 们 使 用 苯 
片 宽度 和 莹 片 长 度 这 两 个 维度 进行 可 视 化 。 

















使 用 线性 核 函 数 的 SVC 线性 SVC (线性 核 函数 ) 





莫 片 长 度 坦 片 长 度 
使 用 RBF 核 函数 的 SVC 使 用 多 项 式 (3 阶 ) 核 函 数 的 SVC 





碍 片 长 度 














通过 不 同 的 核 函 数 可 以 得 到 不 同 的 结果 。 使 用 线性 核 函 数 的 SVC 得 到 的 结果 如 前 面 两 张 图 
所 示 。 你 还 可 以 使 用 多 项 式 核 函 数 或 更 高 级 的 核 函 数 ,它们 可 以 在 二 维 平面 中 投射 出 曲线 ,如 图 
中 所 示 。 通 过 这 种 方式 ， 你 可 以 进行 非常 有 趣 的 分 类 。 


这 些 方法 会 提高 计算 成 本 ,可 以 生成 更 复杂 的 关系 。 同 样 ， 过 于 复杂 的 关系 会 产生 误导 性 的 
结果 ， 所以， 你 需要 谨慎 对 待 ， 在 必要 的 时 候 应 该 使 用 训练 /测试 方法 。 因 为 这 是 一 种 监督 式 学 
习 方 法 ， 所 以 你 可 以 使 用 训练 /测试 方法 ， 找 到 合适 有 效 的 模型 ， 也 可 以 使 用 集成 学 习 方 法 。 

你 需要 找 出 正确 的 核 函 数 来 完成 当前 任务 。 比 如 多 项 式 SVC， 应 该 使 用 几 阶 多 项 式 呢 ? 即 
使 是 线性 SVC， 也 有 很 多 参数 需要 进行 优化 。 通 过 一 个 实际 的 例子 ， 可 以 将 这 些 问题 说 得 更 清 
楚 ， 所 以 ， 下 面 我 们 介绍 实际 的 Python 代码 ， 看 看 它 是 如 何 工 作 的 ! 
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下 面 来 应 用 一 下 支持 向 量 机 ， 幸 运 的 是 ,支持 向 量 机 的 使 用 要 比 理解 更 容易 。 我 们 使 用 与 
均值 聚 类 相同 的 例子 ， 当 时 是 创建 了 100 个 人 员 的 年 龄 和 收入 的 随机 虚拟 数据 用 于 聚 类 。 




















如 果 你 回头 复习 一 下 大 均值 聚 类 那 一 
果 你 准备 好 了 ,那么 来 看 一 下 下 面 的 代码 : 


import numpy as np 


# 创建 虚构 的 收入 /年 龄 族 ,，N 个 人 下 个 族 
def createClusteredDatal(N, Kk): 
pointsPerCluster = float (N)/k 
X= [] 
y = [] 
for i in range (k): 


节 ， 就 能 对 生成 虚拟 数据 的 代码 理解 得 更 透彻 一 些 。 如 





incomeCentroid = np.random.uniform(20000.0, 200000.0) 
ageCentroid = np.random.uniform(20.0, 70.0) 
for j in range(int (pointsPerCluster)): 
X.append ( [np.random.normal (incomeCentroid, 10000.0), 
np.random.normal (ageCentroid, 2.0)]) 


y.append (i) 
xX = np.array (X) 
y = np.array (y) 
return X, y 


请 注意 ， 因 为 SVM 是 一 种 监督 式 学 习 ， 所 以 我 们 不 仅 需 要 特征 数据 ， 还 需要 训练 集 的 正确 





的 结果 。 





createclusteredData() 图 数 创 建 了 一 些 人 员 的 年 龄 和 收入 的 随机 数据 , 聚集 在 k 个 点 附 
近 ， 返 回 两 个 数组 。 第 一 个 数组 是 特征 数组 ， 名 称 为 X， 第 二 个 数组 是 预测 值 数值 ， 名 称 为 y。 
在 scikit-learn 中 ,很 多 时 候 用 于 预测 的 模型 都 需要 这 两 个 输入 ,一 个 是 特征 向 量 列表 , 一 个 是 要 























预测 的 值 ， 预 测 值 可 以 用 来 学 习 。 可 以 运行 一 下 上 面 的 代码 。 


下 面 使 用 createClusteredData () 
再 创建 一 个 散 点 图 表示 出 数据 的 分 布 : 


smatplotlib inline 
from pylab import * 























(X, y) = createClusteredData(100, 


plt.figure (figsize=(8, 6)) 








函数 创建 100 个 随机 人 员 ,使 其 分 布 在 5 个 不 同 的 簇 中 。 


5) 


) 
plt.scatter(X[:,0], X[:,1], c=y.astype (np.float)) 


plt.show!() 


接 下 来 的 图 形 展示 了 我 们 要 处理 的 数据 。 每 运行 一 次 代码 ,都 会 得 到 一 些 不 同 的 簇 ， 因为 我 


们 没有 设 定 随机 数 种 子 。 
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代码 中 有 一 些 新 知识 ，plt .figure () 函数 中 使 用 figsize 参数 生成 了 一 张 更 大 的 图 形 。 
所 以 ， 如 果 想 在 matplot1lib 中 调整 图 形 大 小 ， 就 可 以 使 用 这 个 参数 。 我 们 采用 同样 的 技巧 使 
用 颜色 作为 最 后 的 分 类 编号 , 所 以 ,在 图 形 中 使 用 初始 的 簇 标号 作为 数据 点 的 颜色 。 这 个 问题 有 
些 难度 ， 你 可 以 看 到 有 些 簇 是 混在 一 起 的 。 
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下 面 使 用 线性 SVC 将 数据 分 成 多 个 徐 。 我 们 要 使 用 带 有 线性 核 函 数 的 SYM，C 值 为 1.0。 
C 是 一 个 可 以 调整 的 误差 惩罚 项 ， 默 认 值 为 1。 一 般 情况 下 ， 不 用 调整 这 个 值 ， 但 如 果 你 使 用 集 
成 学 习 方法 或 训练 /测试 法 寻找 正确 模型 时 ， 可 以 调整 一 下 这 个 值 。 然 后 ， 使 用 特征 数据 和 训练 
集中 的 实际 分 类 来 拟 合 模型 。 


from sklearn import svm, datasets 




















Ger t 届 

svc = Svm.SVC (kernel='linear', C=C) .fit(x, y) 

运行 一 下 代码 。 我 们 只 需 得 到 能 够 进行 可 视 化 的 结果 就 可 以 了 ，plotPredictions () 函数 
可 以 绘制 出 分 类 的 范围 和 SVC。 


这 个 函数 可 以 帮助 我 们 将 不 同 的 分 类 可 视 化 ， 它 先 创建 一 个 网 格 ， 再 将 SVC 模型 中 的 各 个 
分 类 以 不 同 颜色 绘制 在 网 格 上 ， 然 后 我 们 在 上 面 绘制 出 初始 数据 : 


def plotPredictions (clf): 
xx, yy = np.meshgrid(np.arange(0, 250000, 10),， 
np.arange(10, 70, 0.5)) 
2 = clf.predict (np.c_[xx.ravel(), yy.ravel()]) 
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plt.figure (figsize=(8, 6)) 

Z = Z.reshape (xx.shape) 

plt.contourf (xx, yy, 272, cmap=plt.cm.Paired, alpha=0.8) 
plt.scatter(X[:,0], X[:,1], c=y.astype (np.float)) 
plt.show!() 


plotPredictions (svc) 


来 看 看 代码 的 结果 。SVC 需要 强大 的 计算 能 力 ， 所 以 代码 的 运行 时 间 会 比较 长 。 
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可 以 看 出 ,这 个 结果 非常 好 。 通 过 直线 和 和 多边形 ,这 种 方法 对 数据 拟 合 得 非常 好 。 虽然 不 是 
十 全 十 美 , 但 总 的 来 说 这 个 结果 相当 不 错 。 

SVC 是 一 种 非常 强大 的 技术 , 它 的 真正 威力 在 于 处 理 高 维 数据 。 你 一 定 要 试 试 它 。 如 果 你 不 
想 只 做 结果 的 可 视 化 ， 那 么 可 以 像 scikit-learn 中 的 多 数 模型 一 样 ， 使 用 SVC 模型 的 predict () 
函数 , 通过 传 和 一 个 特征 数组 得 到 结果 。 如 果 想 预测 一 个 年 龄 为 40 岁 、 年 收入 为 200 000 美元 的 
人 的 分 类 ， 可 以 使 用 以 下 代码 : 


svc.predict([[200000, 40]]) 


结果 是 这 个 人 在 第 一 个 簇 中 。 





Out[Ss]: array([3]) 











如 果 想 预测 一 个 年 龄 为 65 岁 、 年 收入 为 50 000 美元 的 人 的 分 类 ， 可 以 使 用 以 下 代码 : 


svcec.predict([[50000, 65]1]) 
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结果 如 下 。 





Out[6]: array([4]) 





























这 个 人 应 该 在 第 二 个 簇 中 ， 不 管 在 这 个 例子 中 它 表 示 的 是 什么 。 去 练习 一 下 吧 ! 





练习 


线性 核 函 数 只 是 你 可 以 使 用 的 很 多 核 函数 中 的 一 种 , 还 有 很 多 其 他 的 核 函 数 可 以 使 用 , 其 中 
之 一 就 是 多 项 式 模 型 , 可 以 试 试 这 个 核 函数 。 你 需要 先 看 看 文档 , 这 对 你 来 说 是 一 种 很 好 的 实践 。 
如 果 你 更 加 深入 地 使 用 scikit-learn， 就 会 发 现 更 多 可 以 使 用 的 功能 和 选项 。 所 以 ， 去 查 一 下 
scikit-learn 的 在 线 文 档 吧 , 找 出 在 SVC 方法 中 还 可 以 使 用 哪些 核 函 数 , 试用 一 下 , 看 看 能 否 得 到 
更 好 的 结果 。 

这 只 是 一 个 很 小 的 练习 ， 它 不 仅 能 让 你 练习 一 下 SVM 和 各 种 SVC， 还 能 让 你 知道 如 何 自学 
关于 SVC 的 知识 。 说 真 的 , 数据 科学 家 或 数据 工程 师 的 一 个 重要 特点 就 是 具有 自学 新 知识 的 能 力 。 

我 之 所 以 不 告诉 你 其 他 核 函 数 是 什么 ， 并 不 是 犯 懒 ， 只 是 想 让 你 养 成 自己 寻找 答案 的 习惯 。 
如 果 你 总 是 向 别人 询问 这 种 事情 ， 就 会 令 人 生 厌 。 所 以 ， 自 己 去 找 答案 , 试 一 试 ,， 看 看 能 得 到 什 
么 结果 。 

这 就 是 SVM/SVC， 监 督 式 学 习 中 的 一 种 非常 强大 的 数据 分 类 技术 。 现 在 你 已 经 了 解 了 它 的 
工作 原理 和 使 用 方法 ， 好 好 地 使 用 它 吧 ! 


























































































































5.13 ”小结 


本 章 介绍 了 一 些 有 趣 的 机 器 学 习 方 法 。 首 先 介绍 了 机 器 学 习 中 的 一 个 基本 概念 ， 即 训练/ 测 
斌 方法， 介绍 了 如 何 使 用 这 种 方法 找 出 合适 的 多 项 式 阶 数 来 拟 合 给 定 的 数据 。 然 后 分 析 了 监督 式 
学 习 和 非 监督 式 学 习 之 间 的 差异 。 


接 下 来 介绍 了 如 何 实现 一 个 垃圾 邮件 分 类 器 , 并 通过 它 使 用 朴素 贝 叶 斯 方法 来 确定 一 封 邮件 
是 否 为 垃圾 邮件 。 我 们 不 仅 讨论 了 一 种 非 监督 式 学 习 方法 一 -天 均值 聚 类 ， 使 用 它 将 数据 聚集 成 
复 ， 还 给 出 了 一 个 例子 ， 使 用 scikit-learn 基于 收入 和 年 龄 对 人 员 进 行 聚集 。 

随后 又 介绍 了 精 的 概念 和 度量 方法 , 介绍 了 决策 树 的 概念 , 以 及 如 何在 给 定 了 训练 数据 的 情 
况 下 ， 使 用 Python 代码 生成 一 张 流程 图 来 制定 决策 。 我 们 还 建立 了 一 个 能 自动 筛选 简历 的 系统 ， 
它 可 以 基于 简历 信息 预测 某 个 人 能 否 被 录用 。 

最 后 我 们 学 习 了 集成 学 习 的 概念 ,又 讨论 了 支持 向 量 机 种 对 高 维 数据 进行 聚 类 或 分 类 
的 高 级 方法 。 然 后 使 用 scikit-leam 中 的 SVM 功能 进行 了 人 员 聚 类 。 下 一 章 将 讨论 推荐 系统 。 





















































第 6 章 


推荐 系统 








本 章 将 讨论 我 个 人 的 专业 领域 一 一 推荐 系统 , 这 种 系统 可 以 根据 他 人 的 行为 向 人 们 推荐 感 兴 
趣 的 内 容 。 我 们 将 介绍 几 个 推荐 系统 的 例子 以 及 一 些 实现 方法 ， 并 会 专门 介绍 两 种 技术 : 基于 用 
户 的 协同 过 滤 与 基于 项 目的 协同 过 滤 。 下 面 开始 本 章 内 容 。 


我 在 Amazon 和 IMDb 度 过 了 大 部 分 职业 生涯 ， 主 要 工作 就 是 开发 推荐 系统 ， 会 做 如 “购买 
了 这 种 商品 的 人 也 会 购买 ……… ”“ 向 您 推荐 ……… ”， 以 及 为 人 们 推荐 电影 这 样 的 事情 。 所 以 , 推荐 
系统 是 我 的 专业 领域 ， 我 希望 能 与 你 分 享 这 些 知识 。 本 章 将 循序 渐进 地 介绍 以 下 内 容 : 


口 什么 是 推荐 系统 ; 

口 基于 用 户 的 协同 过 滤 ; 
口 基于 项 目的 协同 过 滤 ; 
口 找 出 电影 相似 度 ; 

口 向 人 们 推荐 电影 ; 

口 改善 推荐 结 





























6.1 什么 是 推荐 系统 


Amazon 是 个 非常 好 的 例子 , 我 对 其 也 非常 了 解 。 如 果 你 看 一 下 它 的 推荐 页 面 , 如 下 图 所 示 ， 
就 会 知道 它 是 基于 你 过 去 在 网 站 上 的 购买 行为 来 向 你 推荐 或 许 会 感 兴趣 的 商品 的 。 
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这 个 推荐 系统 推荐 的 东西 包括 你 评价 过 的 商品 、 购 买 过 的 商品 ,以 及 根据 其 他 数据 确定 的 商 
品 , 等 等 。 它 确实 非常 棒 。 你 可 以 认为 “购买 了 这 种 商品 的 人 也 会 购买 .…… ”这 种 功能 在 Amazon 
上 也 是 一 种 推荐 系统 。 


二 者 之 间 的 区 别 在 于 ，Amazon 推荐 页 面 上 的 推荐 内 容 是 基于 你 过 去 的 所 有 行为 而 确定 的 ， 
而 像 “ 购 买 了 这 种 商品 的 人 也 会 购买 ……” 或 者 “查看 了 这 种 商品 的 人 也 会 查看 ……” 之 类 的 功 
能 仅 是 基于 你 正在 查看 的 内 容 ， 向 你 展示 与 之 相似 的 你 或 许 会 感 兴 趣 的 商品 。 确 实 , 你 的 当前 行 
为 可 能 是 确定 你 兴趣 的 最 强烈 信号 。 


男 一 个 例子 来 自 Netflix， 如 下 图 所 示 ( 这 是 Netflix 的 一 个 屏幕 截图 )。 
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Netflix 有 各 种 功能 可 以 基于 你 的 喜好 或 观 影 记录 向 你 推荐 最 新 的 或 是 你 没有 看 过 的 电影 ， 
并 可 以 按 影片 风格 进行 分 类 。 他 们 对 每 部 电影 信息 都 进行 了 处 理 ,从 而 可 以 识别 出 你 最 感 兴趣 的 
电影 风格 和 电影 类 型 ， 然 后 向 你 推荐 同样 风格 的 更 多 电影 。 这 是 实际 推荐 系统 的 另 一 个 例子 。 


推荐 系统 的 作用 就 是 帮助 你 发 现 以 前 不 知道 的 东西 , 所 以 ,， 它 真是 太 棒 了 。 它 可 以 让 人 们 有 
机 会 发 现 那些 以 前 没有 被 注意 到 的 电影 、 书 、 音 乐 或 其 他 物品 。 它 不 仅 是 一 项 非常 强大 的 技术 ， 
还 能 创造 一 种 公平 竞争 的 环境 ,使 新 产品 能 为 大 众 所 知 。 所 以 ， 它 在 当今 社会 非常 重要 ， 至 少 我 
是 这 么 认为 的 ! 实现 推荐 系统 的 方法 有 若干 种 ， 本 章 将 介绍 几 种 主要 方法 。 


































































































基于 用 户 的 协同 过 滤 


首先 , 我 们 讨论 一 下 基于 你 以 前 行为 的 推荐 。 这 种 技术 称 为 基于 用 户 的 协同 过 滤 ， 下 面 是 它 
的 工作 原理 。 


协同 过 滤 是 一 个 时 到 的 名 称 ， 它 的 意思 就 是 基于 你 和 他 人 的 行为 来 推荐 内 容 。 
人 它 检查 你 的 行为 ,然后 与 其 他 人 的 行为 进行 比较 , 找 出 你 还 不 知道 的 但 可 能 感 兴 
趣 的 东西 。 


(1) 这 种 方法 的 思路 就 是 建立 一 个 和 矩阵， 记录 每 个 用 户 对 每 件 商 品 曾经 进行 的 购买 、 查 看 、 
评价 或 其 他 任何 对 推荐 系统 有 价值 的 信息 。 总 的 说 来 ， 在 系统 中 ,每 个 用 户 都 有 一 行 记录 ， 其 中 
包含 了 能 够 指示 出 他 对 某 种 商品 可 能 具有 兴趣 的 所 有 信息 。 你 可 以 想象 出 一 个 表格 , 其 中 的 行 是 
用 户 ， 列 是 一 个 项 目 ， 它 可 以 是 一 部 电影 、 一 件 商品 、 一 个 网 页 或 其 他 什么 东西 ， 你 可 以 用 它 来 
表示 很 多 东西 。 


(2) 然后 ， 我 们 使 用 这 个 和 矩阵 计算 出 不 同 用 户 之 间 的 相似 度 。 可 以 将 矩阵 中 的 每 一 行 看 作 一 
个 向 量 ， 然 后 基于 用 户 行为 计算 出 每 个 用 户 向 量 之 间 的 相似 度 。 


(3) 如 果 两 个 用 户 喜 欢 的 商品 多 数 都 相同 ， 那 他 们 彼此 非常 相似 。 可 以 按照 相似 度 的 值 来 为 
用 户 排序 。 如 果 能 基于 过 去 的 行为 找到 与 你 相似 的 所 有 用 户 ,那么 就 可 以 找到 与 你 最 相似 的 用 户 ， 
然后 可 以 将 他 喜欢 的 但 你 还 不 知道 的 内 容 推荐 给 你 。 


下 面 来 看 一 个 实际 的 例子 ， 这 样 可 以 说 得 更 清楚 一 些 。 






























































144 第 6 章 推荐 系统 

















去 全文 会 全 去 
A 《星球 大 战 》 《帝国 反击 战 》 
LJ 
公信 信雄 倪 


A 
时 > ( 旺 于 大吉 ) 


假设 上 面 这 位 迷人 的 女士 看 了 《星球 大 战 》 和 《帝国 反击 战 》 这 两 部 电影 ， 而 且 都 非常 喜欢 。 
这 样 ， 我 们 就 可 以 建立 这 位 女士 的 用 户 向 量 ， 她 对 《星球 大 战 》 和 《帝国 反击 战 》 的 评价 都 是 5 星 。 


然后 ， 这 位 顶 着 莫 西 干 发 型 的 潮 男 出 场 了 ， 他 只 看 过 《星球 大 战 交 这 是 他 看 过 的 唯一 一 部 
电影 ,他 对 《帝国 反击 战 》 一 无 所 知 ， 就 像 生活 在 另 一 个 时 空 , 根本 不 知道 有 很 多 部 《星球 大 战 》 
系列 电影 ， 几 乎 每 年 一 部 。 


我 们 可 以 认为 这 个 潮 男 和 上 面 那 位 女士 非常 相似 ， 因 为 他 们 都 特别 喜欢 《星球 大 战 》 他 们 
的 相似 度 很 高 。 那 么 ， 这 个 潮 男 还 没有 看 过 这 位 女士 喜欢 的 哪些 电影 呢 ? 《帝国 反击 战 》 就 是 其 
中 之 一 。 这 样 ， 我 们 就 掌握 了 以 下 知识 : 因为 他 们 都 喜欢 《星球 大 战 》 所 以 非常 相似 ; 因为 这 
位 女士 还 喜欢 《帝国 反击 战 》 所 以 《帝国 反击 战 》 对 这 个 莫 西 干 发 型 男 来 说 ， 是 个 好 的 推荐 。 

可 以 将 《帝国 反击 战 》 推 荐 给 这 个 潮 男 ， 他 应 该 会 喜欢 这 部 电影 。 在 我 看 来 ， 它 比 《 星 球 大 
战 》 还 要 好 。 本 章 中 不 会 过 多 讨论 电影 的 好 坏 。 

基于 用 户 的 协同 过 滤 的 局 限 性 

遗憾 的 是 , 基于 用 户 的 协同 过 滤 具 有 一 些 局 限 性 。 当 考虑 基于 项 目 和 人 员 之 间 的 关系 来 做 推 
荐 时 , 我 们 的 思维 总 是 倾向 于 先 考 虑 人 和 人 之 间 的 关系 。 所 以 ,我 们 想 找 到 相似 的 人 ,然后 推荐 


他 们 喜欢 的 东西 。 这 种 方法 符合 直觉 , 但 不 是 最 好 的 。 下 面 列 出 了 儿 种 基于 用 户 的 协同 过 滤 的 局 
限 性 。 
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口 一 个 问题 就 是 人 是 善 变 的 ， 他们 的 喜好 是 一 直 在 变化 的 。 在 上 面 例子 中 的 那 位 迷人 女士 ， 
可 能 正 处 于 一 个 迷恋 科幻 电影 的 时 期 但 过 了 这 个 阶段 之 后 ， 她 可 能 开始 喜欢 剧情 片 或 
情感 剧 。 如 果 基 于 她 早期 对 科幻 电影 的 迷恋 ， 我 们 认为 她 与 莫 西 干 发 型 男 具 有 很 高 的 相 
似 度 ， 然 后 向 他 推荐 浪漫 喜剧 ， 那 会 怎么 样 呢 ?结果 可 能 会 很 糟糕 。 尽 管 在 计算 相似 度 
时 ， 可 以 对 时 间 范 围 有 所 限制 ， 但 因为 人 们 的 喜好 总 是 在 变 ， 所 以 还 是 会 对 数据 有 影响 。 
因为 人 们 的 善 变 ， 人 和 人 之 间 的 比较 并 不 总 是 一 件 简单 的 事情 。 

口 男 一 个 问题 是 , 系统 中 的 人 通常 要 比 物品 多 得 多 。 世界 上 有 70 亿 人 ,但 没有 70 亿 部 电影 ， 
或 者 说 ， 在 你 的 推荐 目录 中 ,没有 70 亿 个 项 目 。 找 出 系统 中 所 有 用 户 相似 度 所 需要 的 计 
算 成 本 通常 远 远 高 于 找 出 系统 中 所 有 项 目 相似 度 所 需要 的 计算 成 本 。 所 以 ， 如 果 系 统 重 
点 关注 用 户 ， 就 会 使 计算 能 力 问题 特别 突出 ， 因 为 用 户 数量 特别 多 ， 特 别 是 当 你 供职 于 
一 家 成 功 公司 的 时 候 。 

口 最 后 一 个 问题 是 ， 人 们 会 做 坏事 。 自 己 的 产品 、 电 影 或 其 他 项 目 被 推荐 ， 会 使 人 们 获得 
非常 实际 的 经 济 利益 ， 所 以 有 人 会 想 尽 办 法 欺骗 系统 ， 让 系统 推荐 他 们 的 新 电影 、 新 产 
品 、 新 书 或 其 他 东西 。 










































































伪造 一 个 系统 用 户 非常 容易 ， 即 创建 一 个 新 用 户 ,让 他 喜欢 大 量 流行 商品 ， 然 后 
再 喜欢 你 的 商品 。 这 种 行为 称 为 托 攻击 ， 理 想 的 系统 可 以 应 付 这 种 攻击 。 





现在 有 人 研究 如 何在 基于 用 户 的 协同 过 滤 系 统 中 检测 和 避免 这 种 托 攻击 。 但 是 , 还 有 一 种 更 
好 的 方法 ， 通 过 完全 不 同 的 策略 可 以 使 系统 不 易 受到 这 种 攻击 。 


以 上 就 是 基于 用 户 的 协同 过 滤 。 它 的 概念 非常 简单 ， 基 于 用 户 行为 找 出 他 们 之 间 的 相似 度 ， 
然后 将 与 你 相似 的 用 户 喜 欢 的 、 你 还 未 看 到 的 内 容 推荐 给 你 。 这 种 方法 确实 有 局 限 性 ,所 以 我 们 
转换 一 下 思路 ， 介 绍 一 种 称 为 基于 项 目的 协同 过 滤 的 技术 。 


6.2 基于 项 目的 协同 过 滤 


基于 用 户 的 协同 过 滤 中 存在 一 些 问 题 , 下 面试 着 解决 一 下 这 些 问题 , 解决 的 方法 称 为 基于 项 
目的 协同 过 滤 。 我 们 来 解释 一 下 为 什么 这 种 技术 更 强大 。 这 种 技术 就 是 Amazon 在 底层 使 用 的 技 
术 , 他 们 已 经 公开 宣称 了 这 一 点 ,所 以 我 们 可 以 介绍 得 更 详细 一 些 , 并 说 明 为 什么 这 是 一 种 伟大 
的 构想 。 在 基于 用 户 的 协同 过 滤 中 , 我 们 根据 人 与 人 之 间 的 关系 进行 推荐 , 但 是 , 如 果 换 种 思路 ， 
根据 物品 与 物品 之 间 的 关系 进行 推荐 ， 会 怎么 样 呢 ? 这 就 是 基于 项 目的 协同 过 滤 。 
























































理解 基于 项 目的 协同 过 滤 

这 种 技术 来 自 于 一 些 对 推荐 系统 的 深刻 理解 。 我 们 曾经 说 过 ， 人 是 非常 善 变 的 , 他 们 的 喜好 
一 直 在 变 ， 所 以 基于 过 往 行 为 对 人 和 人 进行 比较 是 非常 复杂 的 。 人 们 在 不 同 阶段 有 不 同 的 兴 
在 对 人 进行 比较 时 ,他 们 可 能 处 于 不 同 的 阶段 。 但 是 , 项 目 是 不 会 变 的 。 电 影 永 远 是 电影 ， 它 从 
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来 不 变 。《 星 球 大 战 》 一 直 是 《星球 大 战 放 直到 乔治 ' 卢 卡 斯 对 它 进 行 了 一 点 修改 。 但 在 多 数 情 
况 下 , 项 目 不 会 像 人 那么 善 变 。 项目 之 间 的 关系 更 加 长 入 , 计算 项 目 之 间 的 相似 度 时 ， 可 以 进行 
更 加 直接 的 比较 ， 因 为 项 目 不 随 着 时 间 发 生变 化 。 


这 种 技术 的 另 一 优点 是 ， 通 常情 况 下 ， 要 推荐 的 项 目 比 人 少 得 多 。 世 界 上 有 70 亿 人 , 但 你 
不 会 在 网 站 上 提供 70 亿 产 品 以 供 推荐 。 因 为 系统 中 的 项 目 比 用 户 少 得 多 ， 所 以 ， 相 比 于 计算 用 
户 之 间 的 关系 , 计算 项 目 之 间 的 关系 可 以 节省 大 量 计算 能 力 。 这 意味 着 你 可 以 更 加 频繁 地 运行 推 
荐 系统 , 使 其 更 加 实时 , 推荐 效果 更 好 。 你 可 以 使 用 更 加 复杂 的 算法 , 因为 要 计算 的 关系 会 更 少 ， 


这 是 好 事 ! 


通过 这 种 方法 开发 的 系统 也 更 加 难以 欺骗 。 我 们 已 经 说 过 了 , 欺骗 一 个 基于 用 户 的 协同 过 滤 
系统 非常 容易 ， 只 需 创 建 一 些 虚 假 用 户 ,， 使 其 喜欢 一 些 流行 的 东西 ， 然 后 再 喜欢 你 想 要 推销 的 东 
西 就 可 以 了 。 要 欺骗 基于 项 目的 协同 过 滤 系 统 则 困难 得 多 。 你 必须 让 系统 认为 项 目 之 间 存 在 联系 ， 
必须 建立 虚假 的 项 目 ， 并 且 在 海量 用 户 的 基础 上 让 这 个 虚假 项 目 与 其 他 项 目 之 间 存 在 虚假 的 联系 ， 
你 不 大 可 能 有 这 种 能 力 。 所 以 ， 欺 骗 基 于 项 目的 协同 过 滤 系 统 非常 困难 ， 这 是 其 非常 大 的 优点 。 


关于 防止 系统 欺骗 , 男 一 个 重要 的 原则 是 确保 人 们 可 以 用 钱 表决 。 防止 托 攻击 或 系统 欺骗 的 
一 种 通用 方法 就 是 , 只 有 在 人 们 真正 花 了 钱 之 后 , 才 将 他 们 的 行为 纳入 推荐 系统 的 考虑 范围 之 内 。 
所 以 , 相对 于 人 们 查看 了 什么 或 点 击 了 什么 , 根据 他 们 购买 了 什么 来 进行 推荐 通常 会 得 到 更 好 也 
更 可 靠 的 结果 。 



















































































6.3 ”基于 项 目的 协同 过 滤 是 如 何 工作 的 


我 们 讨论 一 下 基于 项 目的 协同 过 滤 是 如 何 工 作 的 。 它 与 基于 用 户 的 协同 过 滤 非常 相似 , 但 考 
虑 的 不 是 用 户 ， 而 是 项 目 。 


回 到 前 面 那 个 电影 推荐 的 例子 。 首 先 , 我 们 要 找到 所 有 同一 个 人 看 过 的 两 部 电影 。 所 以 , 我 
们 找 出 同一 个 人 看 过 的 每 部 电影 , 然后 计算 出 所 有 看 过 那 部 电影 的 人 之 间 的 相似 度 。 通过 这 种 方 
式 ， 基 于 看 过 两 部 电影 的 人 的 评分 ， 可 以 计算 出 两 部 电影 之 间 的 相似 度 。 


假设 有 两 部 电影 ， 比 如 《星球 大 战 》 和 《帝国 反击 战 六 我 们 找 出 所 有 看 过 这 两 部 电影 的 人 ， 
然后 比较 他 们 的 评分 ， 如 果 评 分 相似 , 那么 可 以 说 这 两 部 电影 是 相似 的 ， 因 为 看 过 它们 的 人 对 它 
们 的 评分 相似 。 这 就 是 这 种 方法 的 思路 ， 也 是 一 种 实现 方法 ， 当 然 实 现 的 方法 不 止 一 种 。 

然后 , 我 们 可 以 对 电影 按照 相似 度 进行 排序 ， 找 出 相似 的 电影 。 这 样 就 可 以 得 到 “喜欢 这 部 
电影 的 人 也 喜欢 ……” 或 者 “对 这 部 电影 评价 很 高 的 人 也 对 这 些 电影 评价 很 高 ”等 结果 。 正 如 我 
所 说 的 ， 这 只 是 一 种 实现 方式 。 

这 就 是 基于 项 目的 协同 过 滤 的 第 一 步 , 首先 要 根据 看 过 两 部 电影 的 人 之 间 的 关系 找到 电影 
间 的 关系 。 用 下 面 的 例子 会 说 得 更 清楚 一 些 。 
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《星球 大 战 》 


《帝国 反击 战 》 




















假设 前 面 例子 中 那 位 年 轻 迷 人 的 女士 看 过 《星球 大 战 》 和 《帝国 反击 战 》 而且 都 很 喜欢 ， 
所 以 给 两 部 电影 都 打 了 5 星 。 莫 西 干 发 型 潮 男 也 看 过 这 两 部 电影 ， 同 样 很 喜欢 。 因 此 ， 我 们 可 
以 找到 一 种 关系 ， 因 为 有 两 位 用 户 都 喜欢 这 两 部 电影 ， 所 以 《星球 大 战 》 和 《帝国 反击 战 》 是 
相似 的 。 

我 们 需要 检查 所 有 两 部 电影 的 组 合 。 以 《星球 大 战 》 和 《帝国 反击 战 》 这 个 组 合 为 例 ， 我们 
要 找 出 所 有 看 过 这 两 部 电影 的 用 户 , 也 就 是 上 面 的 两 个 人 ,如 果 他 们 都 喜欢 这 两 部 电影 ， 就 可 以 
说 这 两 部 电影 是 相似 的 。 或 者 ， 如 果 他 们 都 不 喜欢 这 两 部 电影 ， 也 可 以 说 这 两 部 电影 是 相似 的 。 
所 以 ,在 这 个 电影 组 合 中 ， 要 依据 两 位 用 户 与 两 部 电影 的 相关 行为 来 确定 相似 度 。 

现在 ， 又 来 了 一 位 留 着 漂亮 小 胡子 、 穿 着 短 夹克 衫 的 嬉 皮 填 先生， 他 看 过 《帝国 反击 战 》 
他 生活 在 一 个 奇怪 的 世界 ， 虽 然 看 过 《帝国 反击 战 》 但 根本 不 知道 《星球 大 战 》 是 这 个 系列 电 


影 的 第 一 部 。 






















































































148 第 6 章 推荐 系统 








《星球 大 战 》 


* © 《帝国 反击 战 》 


全 
放 
/= 
放 














我 们 根据 前 两 个 人 的 行为 , 计算 了 《星球 大 战 》 和 《帝国 反击 战 》 之 间 的 关系 ,知道 了 这 两 
部 电影 是 相似 的 。 所 以 ， 在 知道 嬉 皮 士 先生 喜欢 《帝国 反击 战 》 之 后 ,我 们 非常 确信 他 也 会 喜欢 
《星球 大 战 》 于 是 将 《星球 大 战 》 推 荐 给 他 ， 并 将 其 放 在 推荐 列表 的 第 一 位 。 如 下 所 示 。 


人 























《星球 大 战 》 


《帝国 反击 战 》 











= 直 | 
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这 个 例子 的 结果 和 上 一 个 例子 很 相似 , 但 采取 的 是 完全 不 同 的 思路 。 我 们 没有 重点 关注 人 和 
人 之 间 的 关系 ,而 是 将 重点 放 在 了 项 目 之 间 的 关系 上 。 项目 之 间 的 关系 也 是 建立 在 所 有 看 过 电影 
的 人 的 总 体 行 为 上 的 。 但 本 质 上 依据 的 是 项 目 之 间 的 关系 ， 不 是 人 之 间 的 关系 。 明 白 了 吗 ? 





使 用 Python 实现 协同 过 滤 


好 了 ， 来 大 干 一 番 吧 ! 我 们 要 编写 一 些 Python 代码 ， 使 用 pandas 和 其 他 能 用 的 工具 创建 
影 推荐 ， 代 码 少 得 会 让 你 吃惊 。 


我 们 要 做 的 第 一 件 事 是 建立 一 个 能 实际 使 用 的 基于 项 目的 协同 过 滤 系 统 , 也 就 是 说 , 要 实现 
“看 了 这 部 电影 的 人 也 看 了 ……” 和 “对 这 部 电影 高 度 评价 的 人 也 高 度 评价 了 ……” 这 些 功能 ， 
即 建立 电影 之 间 的 联系 。 我 们 将 使 用 来 自 于 MovieLens 项 目的 真实 数据 ， 如 果 你 访问 
MovieLens.org,， 就 会 看 到 一 个 开放 的 电影 推荐 系统 ， 人 们 可 以 对 电影 进行 评价 , 也 可 以 获取 新 电 
影 的 推荐 。 


这 个 项 目的 所 有 基础 数据 对 于 研究 者 都 是 公开 的 。 我们 将 使 用 真实 的 电影 评价 数据 , 需要 注 
意 的 是 ， 这 些 数据 有 点 过 时 ， 都 是 10 年 前 的 。 但 是 ,我 们 要 处 理 的 是 真实 的 行为 数据 ， 要 使 用 
这 些 数据 计算 出 电影 之 间 的 相似 度 , 所 以 数据 本 身 是 非常 有 价值 的 。 你 可 以 使 用 这 些 数据 找 出 喜 
欢 某 部 电影 的 人 还 喜欢 什么 电影 。 如 果 我 们 查看 了 某 部 电影 的 网 页 ， 系 统 就 会 告诉 我 们 : 如 果 你 
喜欢 这 部 电影 ， 如 果 你 看 了 这 部 电影 并 很 感 兴趣 , 那么 你 或 许 也 会 喜欢 这 些 电影 。 这 就 是 一 种 类 
型 的 推荐 系统 ， 尽 管 它 甚 至 不 知道 你 是 谁 。 

既然 使 用 了 实际 数据 ， 就 会 遇 到 实际 问题 。 我 们 的 初始 结果 不 会 太 好 ,需要 花 点 时 间 找 出 原 


因 ， 作 为 一 名 数据 科学 家 ， 花费 大 量 时 间 修 正 问题 是 很 正常 的 现象 。 然 后 重新 运行 代码 ， 直 至 得 
到 有 意义 的 结 


最 后 , 我 们 要 得 到 一 个 完整 的 基于 项 目的 协同 过 滤 系统 ,并 使 用 它 基于 个 人 的 行为 做 出 电影 
推荐 。 下 面 就 开始 吧 ! 
6.4 找 出 电影 相似 度 


我 们 按照 基于 项 目的 协同 过 滤 的 思路 来 进行 。 首 先 ,计算 电影 相似 度 , 它 可 以 表示 出 哪些 电 
影 是 相似 的 。 特 别 地 ， 我 们 要 根据 用 户 评分 数据 找 出 哪些 电影 与 《星球 大 战 》 相 似 。 来 看 看 能 找 
出 哪些 电影 ， 马 上 开始 ! 


先进 行 基于 项 目的 协同 过 滤 方 法 的 前 半 部 分 ， 计 算出 项 目 之 间 的 相似 度 。 下 载 并 打开 
SimilarMovies.ipynb 文件 。 
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Finding Similar Movies 


‘We'll start by loading up the MovieLens dataset Using Pandas, we can very quickly load the rows of the u.data and uitem files that we care about, and merge 
them together so we can work with movie names instead of ID’'s. (In a real production job, you'd stick with ID's and worry about the names at the display layer to 
make things more efficient. But this lets us understand what's going on betterfor now.) 


In [1]: import pandas as pd 


rcols = [user id’, "movie id', 'rating'} 
ratings = pd.read csv{'e:/sundog-consult/udemy/datascience/ml -100k/u.data'’, sep='\t', names=r cols, usecols=range (3})) 


mcols = ['movie id', "title'’] 
movies = pd.read csvl'e:/sundog-consult/udemy/datascience/ml-100k/u.item'’, sep='|", names=m cols, usecols=range {2)) 


ratings = pd.merge (movies, ratings) 


In [2]: ratings.head!) 





i 











Toy Story (1995)|287 |s 
a Toy Story (1995) | 148 4 
3|1 Toy Story (1995)|280 |4 
4|1 Toy Story (1995)| 66 3 











在 这 个 例子 中 , 我 们 要 根据 用 户 行为 找 出 电影 之 间 的 相似 度 , 将 使 用 来 自 于 GroupLens 项目 
的 一 些 真实 数据 。GroupLens.org 提供 了 真实 的 电影 评分 数据 ， 这 些 数据 来 自 于 MovieLens.org 的 
真实 用 户 ， 他 们 在 网 站 上 给 电影 打分 ， 并 获得 新 电影 推荐 。 


本 书 附带 文件 中 提供 了 所 需 的 数据 文件 。 首 先 要 将 这 些 数据 文件 导入 pandas 数据 框 中 , 在 
这 个 例子 中 我 们 将 看 到 pandas 的 强大 威力 。 它 绝对 是 个 非常 好 的 工具 ! 


























理解 代码 


首先 要 做 的 是 导入 udata 文件 ,将 其 作为 MovieLens 数据 集 的 一 部 分 ,这 是 个 制 表 符 分 隔 文 
件 ， 包 含 了 数据 集中 的 评分 信息 。 


import pandas as pd 

















rl Ss! UST Lid "yy "moOvie Td. Katingd 
ratings = pd.read_ csv('e:/sundog-consult/packt/datascience/ml-100k/u.data', 
sep='\\t', names=r_cols, usecols=range(3)) 


请 注意 ， 应 该 将 代码 中 的 路 径 蔡 换 为 你 电脑 上 保存 MovieLens 文件 的 路 径 。 在 调用 pandas 
的 reaq_csv() 国 数 时 ， 可 以 指定 一 个 分 隔 符 来 代替 逗号 ， 这 个 例子 中 使 用 的 是 制 表 符 。 


我 们 只 使 用 u.data 文件 的 前 3 列 , 将 其 导入 一 个 新 数据 框 中 , 这 3 列 是 :user_iaq movie ia 


和 rating。 





























我 们 会 得 到 一 个 数据 框 ， 每 个 user_iq 都 对 应 一 行 ， 它 可 以 标识 一 个 特定 用 户 。 对 于 每 个 
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用 户 评价 过 的 电影 ， 都 有 一 个 movie_id,， 它 是 某 部 电影 的 数值 型 标识 ， 比 如 《星球 大 战 》 的 标 
识 是 53。 评分 为 1 星 到 5 星 。 这 样 , 我 们 就 有 了 一 个 数据 库 , 也 就 是 一 个 数据 框 , 里 面包 含 了 所 
有 用 户 以 及 他 们 对 电影 的 评分 。 

下 面 处 理 一 下 电影 标题 ， 为 了 让 结果 更 直观 一 些 ， 我 们 使 用 人 类 可 读 的 标题 。 

如 果 你 使 用 的 是 大 规模 数据 集 ,那么 最 好 使 用 数值 型 标识 , 因为 它 可 以 最 大 限度 地 节省 空间 。 
但 出 于 教学 与 示例 的 目的 ， 我 们 还 是 保留 电影 的 标题 ， 这 样 可 以 将 过 程 看 得 更 清楚 一 些 。 


m_cols 
movies 
























































['movie_id', 'title'] 
pd.read_csv('e:/sundog-consult/packt/datascience/ml-100k/u.item', 
sep='|', names=m_ cols, usecols=range(2)) 

MovieLens 数据 集中 还 有 另外 一 个 独立 文件 uitem， 它 是 使 用 竖 线 分 隔 的 ， 我 们 导入 文件 的 
前 两 列 ， 也 就 是 电影 的 movie_id 和 title。 这 样 就 有 了 两 个 数据 框 : 带 有 所 有 用 户 评分 的 
r_cols 和 带 有 每 个 movie_id 的 标题 的 m_cols。 可 以 使 用 pandas 中 强大 的 merge 函数 将 这 两 
个 数据 框 合 在 一 起 。 


ratings = pd.merge (movies, ratings) 


添加 ratings .head() 命 令 ， 然后 运行 数据 框 的 单元 格 ， 可 以 得 到 以 下 一 张 表格 。 速 度 非 
常 快 ! 














In [2]: ratings.head!() 


i aa 

















1 Toy Story (1995)| 148 4 
1 Toy Story (1995)| 280 4 
1 Toy Story (1995) | 66 3 


我 们 得 到 了 一 个 新 数据 框 ， 其 中 包括 user_idq 和 用 户 对 每 部 电影 的 评价 ， 还 有 movie_ia 
和 title, 通过 这 两 列 可 以 知道 电影 的 名 称 。 从 上 图 可 知 , user_iq 为 308 的 用 户 对 Toy Story 









































(1995) 这 部 电影 的 评价 是 4 星 ，user_ida 为 287 的 用 户 对 Toy story (1995) 的 评价 是 5 星 ， 
等 等 。 如 果 继 续 查看 这 个 数据 框 中 的 更 多 信息 ， 便 可 以 知道 各 个 影片 获得 的 不 同 评分 。 


下 面 可 以 看 到 pandas 真正 强大 的 功能 。 我 们 想 要 的 是 根据 观看 了 每 部 影片 的 用 户 所 得 到 的 
两 部 影片 之 间 的 关系 。 最 终 需要 一 个 和 矩阵， 其 中 包括 了 所 有 电影 和 所 有 用 户 ， 以 及 每 个 用 户 对 每 
部 电影 的 评价 。pandas 中 的 pivot_table 命令 可 以 帮助 我 们 完成 这 个 任务 ， 它 可 以 根据 给 定 的 
数据 框 建立 一 个 新 表格 ， 其 形式 可 以 是 你 需要 的 任何 形式 。 对 于 这 个 例子 ， 可 以 使 用 以 下 代码 : 
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movieRatings = ratings.pivot_ table(index=['user_id'], 
columns=['title'],values='rating') 
movieRatings.head() 
这 上段 代码 使 用 ratings 数据 框 创建 了 一 个 名 为 movieRatings 的 新 数据 框 ,其 索引 为 user_iq,， 
所 以 每 个 user_id 占 一 行 。 我 们 想 让 数据 框 的 所 有 列 都 是 电影 名 称 ， 所 以 数据 框 中 的 每 部 电影 
名 称 都 占 一 列 。 数 据 框 的 每 个 单元 格 中 包含 的 是 rating 值 (如 果 有 的 话 )。 运行 一 下 这 段 代码 。 


最 后 将 得 到 一 个 新 数据 框 ， 如 下 所 示 。 





























( 3 Ninjas: 
再 12 2 on 2001: A |High 39 Year |You 
There 101 Days |Leagues Yankee Young Young 
1-90 Angry | 187 Space Noon At |Steps, ofthe | So 
titie Was (1994) Daimatians en | (1997) in the | Under Dysony | ne me |™ Zulu | Gra Frankenstein | Guns 
You (1996) Valley |the Sea (1994) (1974) (1988) 
(1997) (1957) (1996) |(1954) (1968) Re (1935) (1997) | (1994) 





user id 




































































5 rows x 1664 columns 
< | 
这 个 结果 真是 太 棒 了 。 在 表 中 你 会 看 到 很 多 NaN 值 ， 它 表示 “不 是 一 个 数值 ”，pandas 用 它 
来 表示 缺失 值 。 举 例 来 说 ，user_id 为 1 的 用 户 没 有 看 过 电影 1-900 (1994) ， 但 他 看 过 101 
Dalmatians (1996) 并 对 其 评分 为 2? 星 。user_ia 为 1 的 用 户 还 看 过 电影 12 Angry Man (1957) 
并 评 为 5 星 ， 但 他 没有 看 过 2 Days in the valley (1996) ， 是 不 是 ?” 所 以 ， 我 们 得 到 的 就 
是 一 个 稀 玻 和 矩阵， 其 中 包含 每 个 用 户 和 每 部 电影 ， 只 要 用 户 评价 了 电影 ， 就 会 在 它们 的 交叉 点 上 
有 个 评分 值 。 


从 上 图 可 知 , 你 可 以 很 轻松 地 提取 出 一 个 向 量 , 表示 某 个 用 户 看 过 的 所 有 电影 ,还 可 以 提取 
出 一 个 向 量 , 表示 对 某 部 电影 进行 了 评价 的 所 有 用 户 , 这 就 是 我 们 需要 的 结果 。 这 个 表格 既 适 用 
于 基于 用 户 的 协同 过 滤 ， 也 适用 于 基于 项 目的 协同 过 滤 。 如 果 想 找 出 用 户 之 间 的 关系 ,那么 可 以 
检查 一 下 用 户 之 间 的 相关 性 。 如 果 想 找 出 电影 之 间 的 关系 , 用 于 基于 项 目的 协同 过 滤 ， 则 可 以 基 
于 用 户 行为 检查 列 之 间 的 相关 性 。 这 就 是 通过 用 户 相似 度 得 到 项 目 相似 度 的 方法 。 


下 面 将 进行 基于 项 目的 协同 过 滤 ， 我 们 要 提取 所 需 的 列 ， 需 运行 以 下 代码 : 


starWarsRatings = movieRatings['Star Wars (1977)'] 
starWarsRatings.head() 


通过 以 上 代码 ， 可 以 继续 提取 出 所 有 评价 了 star Wars (1977) 的 用 户 。 
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Dut [4] : user id 


ame: Star Wars {1977), dtype: floaté64 











可 以 看 到 ， 多 数 人 都 看 过 并 评价 过 star wars (1977)， 而且 所 有 人 都 喜欢 它 ， 至 少 在 从 
数据 框 头 部 提取 出 的 这 个 小 样本 中 是 这 样 的 。 于 是 , 我 们 得 到 了 一 个 包括 用 户 ID 和 用 户 对 star 
wars (1977) 的 评价 的 结果 集合 。ID 为 3 的 用 户 没 有 评价 star Wars (1977) ， 所 以 有 一 个 
NaN 值 ， 表示 这 里 有 一 个 缺失 值 , 但 问题 不 大 。 我 们 要 确定 是 否 保留 这 个 缺失 值 ， 以 便 可 以 直接 
比较 不 同 的 电影 列 。 如 何 来 做 呢 ? 





























corrwith 为 数 


pandas 总 是 可 以 帮 我 们 轻松 地 达到 目的 , 它 有 一 个 corrwitn 函数 , 下 面 的 代码 中 就 使 用 了 


similarMovies movieRatings.corrwith(starWarsRatings) 


similarMovies similarMovies.dropna() 

df = pd.DataFrame (similarMovies) 

df.head (10) 

上 面 的 代码 可 以 将 给 定 的 列 与 数据 框 中 其 他 的 列 关联 起 来 , 并 返回 相关 系数 ,在 这 段 代码 中 ， 
我 们 在 整个 movieRatings 数据 框 上 使 用 corrwith 函数 ， 这 个 数据 框 是 一 个 包含 用 户 评价 的 
矩阵, 我 们 将 它 与 starwarsRatings 列 关 联 起 来 , 然后 使 用 dropna 函数 丢弃 所 有 缺失 值 。 最 
后 镜 下 的 就 是 带 有 相关 系数 的 项 目 , 其 显示 看 过 这 些 电影 的 用 户 都 不 止 一 个 。 然后, 根据 结果 新 
建 一 个 数据 框 ， 并 显示 出 前 10 个 结果 。 概 括 如 下 。 


(D 计算 出 《星球 大 战 》 和 其 他 电影 之 间 的 相关 系数 。 


(2) 丢弃 所 有 NaN 值 ， 只 保留 那些 有 实际 值 的 电影 相似 度 ， 其 显示 评价 这 些 电 影 的 用 户 都 不 
止 一 个 。 


(3) 根据 结果 新 建 一 个 数据 框 ， 并 查看 前 10 个 结 
结果 见 下 面 的 屏幕 截图 。 
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Out [5] : 
































| 
titie 

'Til There Was You (1997) 0.872872 
1-900 (1994) -0.645497 
101 Dalmatians (1996) 0.211132 
12 Angry Men (1957) 0.184289 
187 (1997) 0.027398 
2 Days in the Valley (1996) 0.066654 
20,000 Leagues Under the Sea (1954) | 0 289768 
2001: A Space Odyssey (1968) 0.230884 
39 Steps, The (1935) 0.106453 
8 1/2 (1963) -0.142977 














上 图 显示 了 《星球 大 战 》 和 其 他 电影 之 间 的 相关 系数 。 例 如 ,《 星 球 大 战 》 与 电影 'Til There 
Was You (1997) 之 间 的 相关 系数 惊人 地 高 ， 但 与 1-900 (1994) 之 间 则 是 负 相 关 ， 与 101 
Dalmatians (1996) 之 间 只 有 微弱 的 相关 。 


现在 ， 只 需 按 照相 似 度 排序 ， 就 可 以 找 出 与 《星球 大 战 》 相 似 度 最 高 的 电影 ,不 是 吗 ? 来 做 
一 下 : 


similarMovies.sort_values (ascending=False) 


对 前 面 得 到 的 数据 框 调用 sort_values 国 数 ，pandas 又 一 次 轻松 地 完成 了 任务 ， 我 们 需要 
指定 ascenqing=False， 使 它 按照 相关 系数 的 降序 排序 。 结 果 如 下 。 


























title 

Full Speed {1996) 1.000000 
Star Wars (1977) 1.000000 
Mondo {1996) 1.000000 
Man of the Year {1995) 1.000000 
Line King: Al Hirschfeld, The (1996) 1.000000 
Outlaw, The (1943) 1.000000 
Hurricane Streets (1998) 1.000000 
Hollow Reed (1996) 1.000000 
Scarlet Letter, The (1926) 1.000000 
Safe Passage (1994) 1.000000 
Good Man in Africa, A (1994) 1.000000 
Golden Earrings {1947) 1.000000 
Old Lady Who Walked in the Sea, The {Vieille qui marchait dans la mer, La) (1991) 1.000000 
No Escape (1994) 1.000000 
Ed's Next Move (1996) 1.000000 
Stripes (1981) 1.000000 
Cosi (1996) 1.000000 
Commandments (1997) 1.000000 
Twisted (1996) 1.000000 
Beans of Egypt, Maine, The (1994) 1.000000 
Last Time I Saw Paris, The (1954) 1.000000 
Maya Lin: A Strong Clear Vision (1994) 1.000000 
Designated Mourner, The (1997) 0.970725 
Albino Alligator (1996) 0.968496 
Angel Baby {1995) 0.962250 
Prisoner of the Mountains {Kavkazsky Plennik) {1996) 0.927173 
Love in the Afternoon (1957) 0.923381 
"Til There Was You (1997) 0.872872 
A Chef in Love (1996) 0.868599 
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好 了 ，star Wars (1977) 基 本 上 位 于 最 上 面 ， 因 为 它 跟 自己 肯定 很 相似 ， 但 其 他 影片 是 怎 
么 回 事 ?在 上 面 的 结果 中 , 像 Full speed (1996) 、Man of the Year (1995) 和 The Outlaw 
(1943) 这 些 影 片 ， 都 不 是 什么 热门 影片 ， 其 中 大 多 数 我 根本 就 没有 听 说 过 ， 但 它们 与 《星球 大 
战 》 完 美 相 关 。 这 有 点 荒唐 ! 所 以 ,肯定 在 哪里 做 错 了 ， 是 哪里 呢 ? 


关于 这 个 问题 有 一 个 非常 合理 的 解释 , 它 也 给 了 我 们 一 个 非常 好 的 教训 : 在 进行 数据 科学 任 
务 时 ， 总 是 要 对 结果 进行 检查 ， 因 为 我 们 经 常会 漏 掉 一 些 因素 ,或许 是 要 对 数据 进行 清理 ,或 许 
是 犯 了 一 些 错误 。 但 是 ， 你 应 该 一 直 对 结果 持 怀 疑 态度 ， 不 要 轻易 相信 它 。 否 则 就 会 遇 到 有 麻烦。 
如 果 我 真 的 将 这 些 电影 推荐 给 那些 喜欢 《星球 大 战 》 的 人 们 ， 那 我 就 会 被 “ 炒 鲈鱼 "。 为 了 避免 
这 种 事情 ， 一 定 要 注意 你 的 结果 ! 在 下 一 节 中 ， 我 们 将 看 看 错误 出 在 哪里 。 
























































6.5 改善 电影 相似 度 结 果 


让 我 们 来 型 清楚 电影 相似 度 的 错误 在 哪里 。 我们 根据 用 户 评价 向 量 计 算出 了 不 同 电影 之 间 的 
相关 系数 ,但 是 得 到 了 一 个 非常 荒唐 的 结果 。 只 是 提醒 一 下 ,我 们 要 使 用 这 种 方法 找 出 与 《星球 
大 战 》 相 似 的 电影 ， 结 果 却 在 完全 相关 的 电影 列表 顶部 出 现 了 一 堆 怪 异 的 推荐 。 


大 多 数 推荐 是 非常 冷门 的 电影 ， 你 觉得 为 什么 会 这 样 ? 一 个 很 有 道理 的 解释 是 ， 如 果 有 很 
多 人 看 了 《星球 大 战 》 与 一 部 冷门 电影 ， 那 么 这 两 部 电影 之 间 就 会 有 很 强 的 相关 性 ， 因 为 它们 
被 《星球 大 战 》 联 系 起 来 了 。 但 是 ,我们 真 的 会 根据 一 两 个 看 过 冷门 电影 的 人 的 行为 来 做 出 推 
荐 吗 ? 


各 」 怕 不 会 ! 但 这 是 可 能 的 ， 如果 有 两 个 人 ,除了 看 过 《星球 大 战 》， 还 看 了 Full Speed， 而且 
襄 欢 这 两 部 电影 ， 那 么 对 他 们 来 说 ,这 就 是 好 的 推荐 。 但 是 ,对 其 他 人 来 说 , 这 可 能 不 是 好 的 推 
荐 。 我 们 需要 强制 规定 一 个 看 过 某 部 电影 的 人 的 最 小 数量 来 为 相似 度 引 入 某 种 置信 程度 , 不 能 仅 
筷 一 两 个 人 的 行为 判断 茶 部 电影 的 好 坏 。 


试 着 使 用 以 下 代码 实现 上 面 的 想法 : 


import numpy as np 
movieStats = ratings.groupby ('title') .agg({'rating': [np.size, np.mean]}) 
movieStats.head() 


我 们 要 做 的 是 找 出 那些 没有 被 很 多 人 评价 的 电影 ,将 它们 丢弃 之 后 , 再 来 看 看 结果 。 为 了 达 
到 这 个 目的 , 对 初始 的 ratings 数据 框 使 用 groupby ('title') 方 法 , 在 此 pandas 叉 一 次 发 挥 
了 它 的 强大 功能 。 这 样 会 创建 一 个 新 数据 框 ， 将 具有 某 个 电影 名 称 的 所 有 行 聚 合成 一 行 。 

我 们 要 对 评分 进行 聚合 ， 找 出 每 部 电影 被 评价 的 次 数 和 评分 的 均值 。 通过 上 面 的 代码 , 可 以 
得 到 以 下 结果 。 
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Dut [8] : 








title 





"Til There Was You (1997)|9 2.333333 





1-900 (1994) 5 2.600000 





101 Dalmatians (1996) 109 |2.908257 





12 Angry Men (1957) 125 | 4.344000 























187 (1997) 41 |3.024390 











由 上 图 可 知 ， 对 于 电影 101 Dalmatians (1996)， 有 109 个 人 进行 了 评价 ， 评 分 的 均值 
是 2.9 星 ， 这 并 不 是 一 个 很 好 的 评分 。 这 些 数据 仅 赁 肉眼 就 可 以 看 得 比较 清楚 。 我 认为 冷门 的 电 
影 ,比如 187 (1997) 有 41 个 评价 ,而 我 知道 的 电影 ,比如 101 Dalmatians (1996) 和 12 Angry 
Man (1957) ,评价 数量 都 在 100 以 上 。 似 乎 100 个 评价 是 个 自然 的 分 界 值 ， 当 一 部 电影 得 到 的 
评价 人 数 超过 100 时 ， 才 对 我 们 有 意义 。 


将 评价 人 数 少 于 100 的 电影 丢弃 掉 , 是 的 ,我 们 现在 是 通过 一 种 很 直观 的 方式 确定 这 个 值 的 。 
后 面 将 会 讲 到 ， 确 定 这 个 值 的 一 般 方法 是 进行 实际 的 试验 ， 通 过 训练 /测试 方法 试验 多 个 不 同 的 
阔 值 ， 然 后 找到 实际 效果 最 好 的 那个 值 。 现 在 ,我 们 只 是 通过 常识 确定 了 这 个 值 ， 再 过 滤 掉 评 价 
人 数 少 于 100 的 那些 电影 。 同 样 ，pandas 可 以 轻松 地 完成 这 个 任务 。 来 看 以 下 代码 : 


popularMovies = movieStats['rating'] ['size'] >= 100 
movieStats[popularMovies] .sort_ values([('rating', 'mean')], 
ascending=False)[:15] 


对 moviestats 进行 处 理 , 只 保留 rating 数量 大 于 或 等 于 100 的 那些 行 , 并 创建 一 个 新 数 
据 框 popularMovies。 然 后 ， 按 照 mean 进行 排序 ， 仅 仅 为 了 好 玩 ， 看 看 那些 评分 最 高 、 最 受 
欢迎 的 电影 。 
























































Ous [33 rating 
size | mean 
title 
Close Shave, A (1995) 112 |4.491071 
Schindlers List (1993) 298 |4.466443 
Wrong Trousers, The (1993) 118 |4.466102 





Casablanca (1942) 243 |4.456790 
Shawshank Redemption, The {1994) 。 | 283 |4.445230 
Rear Window (1954) 209 |4.387560 

















Usual Suspects, The (1995) 267 |4 385768 
Star Wars (1977) 584 |4.359589 
li2angy Menttssn) |125 |4344000| 
Citizen Kane (1941) 198 |4.292929 
To Kill a Mockingbird (1962) 219 |4.292237 
|one Flew Over the Cuckoo's Nest (1975)|264 |4 291667 
Silence of the Lambs, The (1991) 390 |4.289744 
North by Northwest (1959) 179 |4 284916 

















Godfather, The (1972) 413 |4.283293 
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这 是 一 张 被 多 于 100 个 人 评价 的 电影 的 列表 , 按照 评分 的 均值 进行 排序 ， 这 个 列表 本 身 就 是 
一 种 推荐 系统 。 这 些 都 是 获得 广泛 好 评 的 流行 电影 。A close Shave (1995) 显然 是 部 非常 好 
的 电影 ， 很 多 人 看 过 它 并 且 真 心 喜欢 。 


再 说 一 次 ， 这 是 个 比较 老 的 数据 集 ， 完 成 于 20 世纪 90 年 代 后 期 。 尽 管 你 可 能 对 A close 
Shave (1995) 不 太 熟 悉 ， 但 它 还 是 值得 回头 再 看 一 次 的 ， 把 它 添加 到 你 的 Nettix 上 吧 !1 
Schinqler's List (1993) 出 现在 这 个 列表 的 最 上 方 ， 这 没什么 大 惊 小 怪 的 。The wrong 
Trousers (1993) 则 是 另 一 部 冷门 电影 ， 但 它 显然 非常 好 ， 也 非常 受 欢 迎 。 所 以 ， 仅 赁 这 张 表 
格 ， 我 们 就 有 一 些 很 有 趣 的 发 现 。 


情况 似乎 有 了 一 点 好 转 ,我 们 继续 创建 新 的 数据 框 ， 根据 这 个 数据 框 中 的 电影 进行 与 《星球 
大 成》 相关 的 推荐 。 使 用 join 操作 ， 将 初始 的 similarMovies 数据 框 与 新 的 只 包含 超过 100 
个 评价 的 电影 的 数据 框 连 接 起 来 。 
df = movieStats[popularMovies] .join(pd.DataFrame (similarMovies, 
columns=['similarity'])) 
df.head () 
上 面 代码 创建 了 一 个 新 数据 框 ， 从 similarMovies 数据 框 中 提取 出 similarity 列 ， 然 
后 与 moviestats 数据 框 ， 也 就 是 popularMovies 数据 框 连接 起 来 ， 再 检查 一 下 组 合 后 的 结 
有 果 。 输 出 如 下 。 
















































































{rating, size) | (rating, mean) 











title 





101 Dalmatians (1996) 0.211132 





12 Angry Men (1957) 125 4.344000 0.184289 
2001: A Space Odyssey (1968) | 259 3.969112 0.230884 


Absolute Power (1997) 











Abyss, The (1989) 151 3.589404 0.203709 

















我 们 有 了 与 《星球 大 战 》 相 关 的 电影 的 相似 度 ， 并 限制 在 评价 人 数 多 于 100 的 电影 范围 内 。 
现在 只 需 使 用 以 下 代码 进行 排序 : 


df.sort_ values(['similarity'], ascending=False)[:15] 


按照 相似 度 从 高 到 低 的 顺序 排序 ， 并 输出 前 15 个 结果 。 运 行 代码 的 结果 如 下 。 


J 
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一 
Star Wars (1977) 5 | 4.359589 1.000000 
Empire Strikes Back, The (1980) [368 | 4.206522 0.748353 
Return of the Jedi (1983) 4.007890 0.672556 
Raiders of the Lost Ark (1981) 420 |4252381 |0.536117 
Austin Powers: Intemational Man of Mystery (1997) 3.246154 0.377433 
sting, The (1973) 4.058091 0.367538 
Indiana Jones and the Last Crusade (1989) 3.930514 0.350107 
Pinocchio (1940) 3.673267 0.347868 
Frighteners, The (1996) 3.234783 0.332729 
L.A. Confidential (1997) 4.161616 
Wag the Dog (1997) 3.510949 0.318645 
Dumbo (1941) 3.495935 0.317656 
Bridge on the River Kwai, The (1957) 4.175758 0.316580 
Philadelphia Story, The (1940) 104 [4115385 | 0.314272 
Miracle on 34th Street (1994} 3.722772 [0.310921 | 


这 个 结果 看 上 去 好 多 了 ! star wars (1977) 排 在 第 一 位 ， 因 为 它 跟 自己 相 比 肯定 相似 度 最 
高 。The Empire Strike Back (1980) 排 在 第 二 位 ，Return of the Jedi (1983) 是 第 三 
位 ，Raiders of the Lost Ark (1981) 是 第 四 位 。 虽 然 还 不 完美 , 但 已 经 相当 不 错 了 。 我 们 
希望 《星球 大 战 》 三 部 曲 是 彼此 相似 的 ， 它们 也 的 确 占据 了 前 三 位 ，Raiders of the Lost Ark 
(1981) 也 是 一 部 与 《星球 大 战 》 风 格 非常 相似 的 电影 ， 它 排 在 了 第 四 位 。 感 觉 这 个 结果 好 多 了 ， 
当然 还 有 改善 的 空间 ， 但 我 们 已 经 得 到 了 一 个 很 好 的 结果 。 


理想 情况 下 还 应 该 过 滤 掉 《星球 大 战 》 因为 我 们 不 想 看 到 原来 的 电影 ， 但 这 个 问题 等 一 会 
儿 再 处 理 。 我 们 随意 地 指定 了 100 这 个 最 小 评价 数量 的 阔 值 ， 如 果 你 还 想 多 练习 一 下 ， 可 以 试验 
其 他 数值 , 看 看 能 得 到 什么 结果 , 这 种 行为 是 值得 鼓励 的 。 在 前 面 的 表格 中 , 结果 非常 令 人 满意 ， 
其 中 很 多 电影 的 评价 数量 远 远 超过 100。Austin Powers: International Man of Mystery 
(1997) 的 排名 非常 高 ， 但 评价 数量 只 有 130， 所 以 100 可 能 还 不 够 高 。Pinocchio (1940) 与 
《星球 大 战 》 不 是 非常 相似 ， 它 的 评价 数量 是 101， 所 以 ， 你 可 以 考虑 使 用 更 高 的 国 值 ， 看 看 结 
果 如 何 。 

































































请 记 住 , 这 是 个 非常 小 而 有 限 的 数据 集 ,， 只 是 用 于 实验 的 目的 , 而 且 是 基于 过 往 
0 数据 的 ， 所 以 你 只 能 看 到 比较 老 的 电影 。 对 结果 的 解释 有 一 点 困难 但 这 个 结果 
真 的 不 坏 。 
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下 面 , 我们 使 用 更 加 完善 的 基于 项 目的 协同 过 滤 方 法 建立 一 个 更 完整 的 系统 ， 向 人 们 推荐 


电影 。 


6.6 ”向 人 们 推荐 电影 


让 我 们 实际 建立 一 个 完整 的 推荐 系统 , 检查 系统 中 所 有 人 的 行为 信息 , 看 看 他 们 都 评价 了 哪 
些 电 影 , 然后 使 用 这 个 系统 对 数据 集中 的 任 一 用 户 给 出 最 优 推 荐 。 这 真是 令 人 激动 ,而 且 也 出 奇 
地 简单 。 开 始 吧 ! 


这 里 要 使 用 的 是 ItemBasedCF.ipynb 文件 。 首 先导 入 MovieLens 数据 集 ， 我 们 要 使 用 这 个 数 
据 集 的 一 个 子 集 ， 其 中 包含 100 000 条 评价 。 如 果 愿 意 ， 你 可 以 在 GroupLens.org 下 载 到 更 大 的 
数据 集 ， 其 中 有 几 百 万 条 评价 。 请 记 住 ， 当 你 开始 处 理 真正 的 大 数据 时 ， 就 需要 对 单机 和 pandas 
的 功能 进行 扩展 。 闲 话 少 说 ， 来 看 第 一 段 代码 : 


import pandas as pd 























EGOlS RE ["User id "movierid" racing™] 
ratings = pd.read csv('e:/sundog-consult/packt/datascience/ml-100k/u.data', 
sep='\t', names=r_cols, usecols=range(3)) 


['movie_id', 'title'] 
pd.read_csv('e:/sundog-consult/packt/datascience/ml-100k/u.item', 
sep='|', names=m cols, usecols=range (2)) 

ratings = pd.merge (movies, ratings) 


m_ cols 
movies 


ratings.head() 

和 前 面 一 样 ， 我 们 要 导入 udata 文件 ， 其 中 包含 了 每 位 用 户 的 评价 ， 以 及 他 们 看 过 的 电影 。 
然后 在 其 中 加 入 电影 名 称 ， 以 免 我 们 去 处 理 数 值 型 的 电影 ID。 点 击 运 行 按 钮 ， 可 以 得 到 以 下 的 
数据 框 。 














Toy Story (1995)| 287 


Toy Story (1995) | 148 | 
Toy Story (1995) 4 
Toy Story (1995) 3 


上 图 中 信息 的 意义 是 ,user_id 为 308 的 用 户 对 Toy story (1995) 的 评价 是 4 星 ,user_iq 


























为 66 的 用 户 对 Toy story (1995) 的 评价 是 3 星 。 这 个 数据 框 中 包含 了 所 有 用 户 对 所 有 电影 的 
所 有 评价 。 
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还 是 和 前 面 一 样 , 我 们 使 用 强大 的 pandas 命令 pivot_table 基于 上 面 的 信息 建立 一 个 新 数 
据 框 : 


userRatings = ratings.pivot_ table(index=['user_id'], 
columns=['title'],values='rating') 





userRatings.head() 























这 样 ， 原 数据 集中 的 每 个 user_id 占 一 行 ， 每 部 电影 占 一 列 ， 每 个 单元 格 中 是 评价 数据 。 
















































































3 Ninjas: 
硬 12 2 20.000 2001: A |High 39 Year |You 
There 101 Days |Leagues Yankee Young Young 
1-900 |Angry|187 |: Space “|Noon At | Steps， ofthe | So 
title Was Dalmatians in the | Under -= |Zulu Frankenstein | Guns 
You |('394)| (1996) Men |(1997)| Vlley|the sea | Ovssey/Mega 。 | me (1994) | Horse | crazy | (1974) (1988) 
1957) 1968， M tain | (1935 1997) | (1994) 
{1997) Usen (1996) |(1954) |(13958) |Mountain |(1935) (1997) (1994) 
(1998) 
user id 
0 NaN |NaN |NaN NaN |NaN |NaN |NaN NaN NaN NaN .| NaN NaN |NaN |NaN NaN 
1 NaN |NaN |2 5 NaN |NaN |3 4 NaN NaN .| NaN NaN |NaN |5 3 
2 NaN |NaN | NaN NaN |NaN |NaN | NaN NaN NaN |...|NaN NaN |NaN |NaN NaN 
3 NaN |NaN |NaN NaN |2 NaN |NaN NaN NaN NaN .| NaN NaN |NaN |NaN NaN 
4 NaN |NaN |NaN NaN |NaN |NaN |NaN NaN NaN NaN .|NaN NaN |NaN |NaN NaN 
5 rows x 1664 columns 
< 





通过 前 面 的 步骤 ,我 们 得 到 了 一 个 极其 有 用 的 和 矩阵， 其 中 每 行 表示 一 个 用 户 ， 每 列 是 一 部 电 
影 ， 所 有 用 户 对 所 有 电影 的 评价 也 包含 在 内 。 例 如 ，user_ia 为 1 的 用 户 对 101 Dalmatians 
(1996) 的 评价 是 2 星 。 同 样 ， 所 有 的 NaN 都 表示 缺失 的 数据 ,例如 ，user_ia 为 1 的 用 户 对 电 
影 1-900 (1994) 没 有 进行 评价 。 

这 个 矩阵 非常 有 用 。 如 果 要 进行 基于 用 户 的 协同 过 滤 , 那么 可 以 计算 出 每 个 用 户 评价 向 量 之 
间 的 相关 系数 ， 从 而 找 出 相似 的 用 户 。 因 为 要 做 的 是 基于 项 目的 协同 过 滤 ， 所 以 我 们 对 列 与 列 之 
间 的 关系 更 感 兴 趣 。 例 如, 计算 出 任意 两 列 之 间 的 相关 系数 ,就 可 以 告诉 我 们 任意 两 部 电影 之 间 
的 相关 系数 。 应 该 怎么 做 呢 9 pandas 可 以 帮助 我 们 非常 容易 地 完成 这 个 任务 。 


pandas 有 个 内 置 函数 corr， 可 以 计算 出 整个 矩阵 中 任意 两 列 之 间 的 相关 系数 。 


corrMatrix = userRatings.corr() 
corrMatrix.head() 


运行 上 面 的 代码 。 这 要 进行 大 量 计算 ,所 以 需要 一 段 时 间 才 能 得 到 结果 。 如 下 所 示 。 
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上 3 Ninjas: 
le 2 Days 000 2001: A |High 39 Yearof |You 
There 101 12 Angry Leagues Yankee 
1-900 2 187 in the Space Noon At | Steps, the So 
title Was Dalmatians | Men Under -|ZUIU 
You |(01984) (1996) (1957) (1997) [Valley | the sea | Odyssey |Mega The (1994) Horse |Crazy 
(1996) (1968) “| Mountain | (1935) (1997) “|(1994) 
{1997) (1954) 
(1998) 
titie 
Til There 
Was You 1.0 NaN |-1.000000 |-0.500000 |-0.500000 |0.522233|NaN -0.426401 | NaN NaN .| NaN NaN NaN 
(1997) 
1-900 
(1994) NaN |1 NaN NaN NaN NaN NaN -0.981981 | NaN NaN -|NaN NaN NaN 
101 
Dalmatians |-1.0 |NaN |1.000000 |-0.049890 |0.269191 |0.048973|0.266928 |-0.043407 |NaN 0.111111|... | NaN -1.000000 | NaN 
(1996) 
12 Angry 
Men (1957) -0.5 NaN |-0.049890 |1.000000 |0.666667 |0.256625 |0.274772 |0.178848 |NaN 0.457176|... | NaN NaN NaN 
187 (1997) |-0.5 |NaN |0.269191 |0.666667 |1.000000 |0.596644|NaN -0.554700 | NaN 1.000000|... |NaN 0.866025 |NaN 












































5 rows x 1664 columns 
< 




















上 面 的 结果 有 何 意义 ? 我 们 得 到 了 一 个 新 数据 框 ,， 它 的 每 行 和 每 列 都 是 一 部 电影 。 所 以 , 给 
定 两 部 电影 ， 就 可 以 在 它们 的 交叉 点 上 找到 相关 系数 ， 这 个 值 是 基于 原来 的 userRatings 数据 
得 出 的 。 这 真是 太 棒 了 ! 例如 ， 显 然 电 影 101 Dalmatians (1996) 和 它 自己 完全 相关 ， 因 为 
它们 具有 同样 的 用 户 评价 向 量 。 但 是 ， 如 果 你 检查 一 下 101 Dalmatians (1996) 和 12 Angry 
Man (1957) 之 间 的 关系 ， 就 会 发 现 它们 之 间 的 相关 系数 很 小 ， 因 为 这 两 部 电影 是 非常 不 同 的 。 
很 有 道理 ， 是 不 是 ? 


现在 我 们 有 了 这 个 美妙 的 矩阵 ， 便 可 以 得 到 任意 两 部 电影 之 间 的 相似 度 ， 这 种 感觉 很 棒 ， 而 
且 对 接 下 来 的 工作 相当 有 用 。 和 前 面 一 样 ， 我 们 还 必须 处 理 一 下 那些 虚假 的 结果 ,因为 不 想 被 那 
些 基 于 少数 人 行为 的 信息 所 误导 。 


pandas 的 corr 函数 中 有 一 些 参数 你 可 以 进行 设置 ,其 中 有 一 种 设置 方法 就 是 我 们 要 使 用 的 
相关 系数 方法 ， 我 们 使 用 皮尔 逊 相关 系数 。 


corrMatrix = userRatings.corr (method='pearson', min periods=100) 
corrMatrix.head() 


你 会 发 现 函 数 中 还 有 一 个 min_periods 参数 需要 设置 ， 这 个 参数 的 意义 是 , 我 们 只 想 考 虑 
那些 基于 具有 超过 100 个 人 评价 的 电影 计算 出 的 相关 系数 。 通 过 这 个 参数 , 将 除 掉 那 些 基于 少数 
用 户 得 到 的 虚假 关系 。 运 行 代 码 后 得 到 的 矩阵 如 下 所 示 。 
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和 3 和 











5 rows x 1664 columns 
< 

















这 个 结果 与 前 面 项 目 相 似 度 练习 中 的 结果 有 些 差 别 。 在 前 面 的 练习 中 , 我 们 丢弃 了 那些 评价 
人 数 少 于 100 的 电影 ; 在 这 里 ， 丢弃 的 是 评价 人 数 少 于 100 的 电影 之 间 的 相似 度 。 所 以 ,你 可 以 
看 到 在 上 面 的 矩阵 中 有 更 多 的 NaN 值 。 


实际 上 ,甚至 有 些 与 自己 相似 的 电影 也 被 丢弃 了 ， 例如， 电影 1-900 (1994) 的 观看 人 数 少 
于 100， 所 以 与 它 相关 的 所 有 相似 度 都 被 丢弃 了 。 相 反 ， 电 影 101 Dalmatians (1996) 值 为 1 
的 相似 度 却 被 保留 下 来 了 。 在 这 个 数据 集 小 样本 中 , 没有 观看 人 数 少 于 100 的 两 部 不 同 电影 之 间 
的 相似 度 信息 。 尽 管 如 此 ,保留 下 来 的 电影 也 足够 得 出 有 意义 的 结果 。 


通过 一 个 例子 理解 电影 推荐 


使 用 这 些 数 据 能 做 什么 呢 ? 当然 是 为 人 们 推荐 电影 。 我 们 的 推荐 方法 是 先 检查 一 个 人 的 所 有 
评价 信息 ， 然 后 找到 与 他 评价 过 的 电影 相似 的 电影 ， 作 为 向 这 个 人 推荐 的 电影 候选 。 


我 们 先 创 建 一 个 虚拟 用 户 , 为 他 推荐 电影 。 我 已 经 向 MovieLens 数据 集中 手动 添加 了 一 个 虚 
拟 用 户 ， 他 的 ID 号 是 0。 你 可 以 使 用 以 下 代码 查看 这 个 用 户 : 


myRatings = userRatings.loc[0].dqropna() 





























myRatings 
结果 如 下 。 
Out[5]: title 
Empire Strikes Back, The (1980) 5 
Gone with the Wind (1939) 1 
Star Wars (1977) 5 


Name: 0, dtype: float64 
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这 个 用 户 和 我 有 点 像 ， 都 喜欢 《星球 大 战 》 和 《帝国 反击 战 》》 但 不 喜欢 《乱世 佳人 》 所 以 ， 
他 代表 了 那些 喜欢 《星球 大 战 》 但 讨厌 老式 浪漫 电影 的 人 。 因 此 , 我 将 他 对 The Empire Strikes 
Back (1980) 和 Star Wars (1977) 的 评价 设 为 $ 星 ， 而 将 他 对 Gone with the Wingd (1939) 
的 评价 设 为 1 星 。 我 们 将 为 这 个 虚拟 用 户 推荐 电影 。 


那么 ,如 何 来 做 呢 ? 首先 创建 一 个 名 为 simcandidqates 的 序列 , 然后 加 入 所 有 我 评价 过 的 


局 
办 7 o 














simCandidates = pd.Series() 
for i in range(0, len(myRatings.index)): 
print "Adding sims for " + myRatings.index[i] + " 


# 找 出 我 评价 过 的 电影 


sims = corrMatrix[myRatings.index[i]] .dropna() 
# 通过 我 对 电影 的 评分 放大 相似 度 
sims = sims.map(lambda x: x * myRatings[i]) 


# 将 分 数 添 加 到 相似 度 候 选 列表 中 
simCandidates = simCandidates.append (sims) 


# 看 一 下 目前 的 结果 : 

BEINt SortlInd.s a 

simCandidates.sort_values (inplace = True, ascending = False) 
print simCandidates.head(10) 


对 于 从 0 到 myRatings 中 评价 数量 范围 内 的 每 一 个 i ， 我 们 要 将 与 评价 过 的 电影 相似 的 
影 加 入 序列 中 。 我 们 要 使 用 数据 框 corrmatrix， 这 个 神奇 的 数据 框 中 包含 所 有 的 电影 相似 度 。 
我 们 要 通过 myRatings 创建 一 个 相关 系数 和 矩阵， 丢弃 所 有 的 缺失 值 ， 然 后 将 得 到 的 相关 系数 放 
大 ， 放 大 的 倍数 为 对 相关 电影 的 评价 值 。 


举例 说 明 一 下 上 面 的 过 程 。 我 们 先 取得 所 有 电影 与 《帝国 反击 战 》 的 相似 度 ， 然 后 将 它们 乘 
以 5， 因 为 我 真 的 很 喜欢 《帝国 反击 战 »》 但 是 ， 当 取得 所 有 电影 与 《乱世 佳人 》 的 相似 度 后 ， 
将 它们 乘 以 1， 因 为 我 真 的 不 喜欢 《乱世 佳人 》 这 样 便 会 给 予 与 我 喜欢 的 电影 相似 的 电影 更 大 
的 权重 ， 并 给 予 与 我 不 喜欢 的 电影 相似 的 电影 更 小 的 权重 。 


于 是 , 我 们 就 得 到 了 这 样 一 份 候选 相似 度 列表 ， 如果 你 愿意 ， 也 可 以 叫 作 候选 推荐 。 将 列表 
排序 然后 打印 出 来 ， 得 到 的 结果 如 下 。 








[I 






























































Adding sims for Empire Strikes Back, The (1980)... 

Adding sims for Gone with the Wind (1939)... 

Adding sims for Star Wars (1977)... 

sorting... 

its 

Empire Strikes Back, The (1980) 5.000000 
Star Wars (1977) 5.000000 
Empire Strikes Back, The (1980) 3.741763 
Star Wars (1977) 3.741763 
Return of the Jedi (1983) 3.606146 
Return of the Jedi (1983) 3.362779 
Raiders of the Lost Ark (1981) 2.693297 
Raiders of the Lost Ark (1981) 2.680586 
Austin Powers: International Man of Mystery (1997) 1.887164 
Sting, The (1973) 1.837692 
dtype: float64 
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看 上 去 不 错 ， 是 不 是 ”显然 ，The Empire Strikes Back (1980) 和 Star Wars (1977) 
位 于 列表 最 前 面 , 因为 我 确实 喜欢 它们 , 我 已 经 看 过 这 两 部 电影 并 做 出 了 评价 。 此 外 , 不 出 所 料 ， 
位 于 列表 前 面 的 还 有 Return of the Jedi (1983) 和 Raiders of the Ark (1981) 。 

















我 们 看 到 有 一 些 重复 的 结果 , 需要 再 进行 一 些 优化 。 如 果 有 一 部 电影 与 不 止 一 部 我 们 评价 过 
的 电影 相似 , 那么 它 就 会 在 结果 中 出 现 不 止 一 次 , 我 们 要 将 重复 的 结果 合并 起 来 。 如 果 结 果 中 确 
实 有 重复 的 电影 , 那么 在 合并 的 时 候 , 应 该 将 它们 的 相关 系数 加 起 来 , 得 到 一 个 更 强 的 推荐 分 数 。 
比如 拿 《 绝 地 归来 》 来 说 ， 它 既 与 《星球 大 战 》 相 似 ， 又 与 《帝国 反击 战 》 相 似 ， 那么 应 该 如 何 
处 理 呢 ? 


























1. 使 用 groupby 命令 合并 行 





我 们 的 处 理 方法 是 ， 先 使 用 groupby 命令 将 相同 的 电影 行 组 合 在 一 起 ， 然 后 再 将 它们 的 相 
关系 数 加 起 来 并 看 一 下 结 
simCandidates = simCandidates.groupby (simCandidates.index) .sum() 


simCandidates.sort_values (inplace = True, ascending = False) 
simCandidates.head(10) 








结果 如 下 。 
out[8]: title 

Empire Strikes Back, The (1980) 8.877450 
Star Wars (1977) 8.870971 
Return of the Jedi (1983) 了 王八 
Raiders of the Lost Ark (1981) 5.519700 
Indiana Jones and the Last Crusade (1989) 3.488028 
Bridge on the River Kwai, The (1957) 3.366616 
Back to the Future (1985) 3.357941 
Sting, The (1973) 3.329843 
Cinderella (1950) 3.245412 
Field of Dreams (1989) 3.222311 
dtype: float64 











看 起 来 相当 不 错 ! 





Return of the Jedi (1983) 实 至 名 归 地 位 于 第 一 位 ， 它 的 分 数 是 7，Raiders of the 
Lost Ark (1981) 届 居 第 二 ,分 数 为 5， 下 面 就 是 Indiana Jones and the Last Crusade 
(1989)。 还 有 更 多 的 电影 , 如 The Bridge on the River Kwai (1957)、Back to the Future 
(1985) 和 The sting (1973)。 这 些 电 影 确实 都 是 我 想 看 的 ! 我 还 很 喜欢 以 前 的 迪士尼 电影 ， 
所 以 列表 中 出 现 cinderella (1950) 也 并 不 奇怪 。 


























最 后 需要 做 的 改进 是 过 滤 掉 那些 我 已 经 评价 过 的 电影 ， 因 为 推荐 我 们 已 经 看 过 的 电影 毫 无 
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2. 使 用 arop 命令 删除 记录 
使 用 以 下 代码 可 以 从 候选 推荐 中 快速 删除 位 于 评价 序列 中 的 所 有 电影 : 


filteredSims = simCandidates.drop (myRatings.index) 
filteredSims.head(10) 


运行 以 上 代码 可 以 看 到 最 前 面 的 10 个 推荐 。 














title 

Return of the Jedi (1983) 2 
Raiders of the Lost Ark (1981) 5.519700 
Indiana Jones and the Last Crusade (1989) 3.488028 
Bridge on the River Kwai, The (1957) 3.366616 
Back to the Future (1985) 3.357941 
Sting, The (1973) 3.329843 
Cinderella (1950) 3.245412 
Field of Dreams (1989) S2223T. 
Wizard of Oz, The (1939) 3.200268 
Dumbo (1941) 2.981645 
dtype: float64 














就 是 这 样 ! 对 我 们 这 个 虚拟 用 户 的 最 佳 推荐 就 是 Return of the Jedi (1983) 、Raiders 
of the Lost Ark (1981) 和 Indiana Jones and the Last Crusade (1989), 都 非常 准 
确 , 我 们 看 到 列表 中 还 有 一 些 适合 全 家 人 一 起 看 的 电影 ,比如 cindqerella (1950) .The Wizard 
of 0z (1939) 和 Dumbo (1941) ， 这 可 能 是 因为 我 还 评价 了 《乱世 佳人 》》 尽管 把 它 的 权重 调 
低 了 ， 但 它 还 是 有 影响 的 。 这 就 是 我 们 的 成 果 ， 也 是 你 的 ! 真是 太 棒 了 ! 


我 们 确实 为 一 个 特定 用 户 生 成 了 推荐 ， 我 们 也 可 以 为 整个 数据 框 中 的 任何 一 个 用 户 生成 推 
荐 。 如 果 你 想 试 一 下 ， 就 去 做 吧 。 我 希望 你 能 亲自 动手 ， 试 着 去 做 一 下 这 个 练习 ， 并 努力 对 结果 
进行 改善 。 

数据 科学 和 机 带 学 习 中 有 时 需要 一 点 艺术 , 你 需要 不 断 尝试 各 种 不 同 的 想法 和 技术 , 以 得 到 
越 来 越 好 的 结果 ,这 个 过 程 要 持续 很 久 。 我 几乎 用 整个 职业 生涯 来 做 这 件 事 。 我 并 不 希望 你 像 我 
一 样 ， 花 费 以 后 10 年 的 时 间 来 改善 这 个 结果 ， 你 可 以 做 些 更 简单 的 事情 ， 下 面 来 看 一 下 。 















































6.7 改善 推荐 结果 


作为 一 项 练习 ,我 希望 你 接受 挑战 ,将 推荐 结果 变 得 更 好 。 下 面 介绍 一 些 我 的 想法 。 你 也 可 
以 有 自己 的 想法 ， 然 后 将 想法 付 诸 实践 ， 亲 自动 手 去 尝试 ， 努 力 使 电影 推荐 的 结果 更 加 完善 。 


好 的 ,这 些 推荐 结果 还 有 很 大 的 改善 空间 。 关 于 如 何 基于 电影 评价 确定 不 同 推荐 结果 的 权重 ， 
以 及 评价 两 部 电影 最 小 人 数 阔 值 的 选择 , 我 们 做 了 很 多 决定 。 所 以 , 这 就 会 有 很 多 参数 可 以 调整 ， 
有 很 多 算法 可 以 试验 , 在 努力 使 系统 做 出 更 好 电影 推荐 的 过 程 中 , 你 会 觉得 乐 在 其 中 。 如 果 觉 得 
自己 有 能 力 去 做 ， 那 就 赶快 动手 吧 ! 
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下 面 是 改善 本 章 练习 结果 的 一 些 想法 。 首 先 ， 你 可 以 使 用 ItembasedCF.ipynb 文件 进行 试验 。 
例如 , 我 们 知道 在 计算 相关 系数 的 方法 中 , 有 一 些 参数 需要 设置 , 书 中 使 用 的 是 皮尔 逊 相关 系数 ， 
但 你 可 以 试 试 一 些 其 他 方法 ,看 看 它们 对 结果 会 有 什么 影响 ,我 们 使 用 的 min_period 值 是 100， 
它 可 能 太 高 , 也 可 能 太 低 , 这 只 是 随便 选择 的 一 个 值 。 如 果 使 用 其 他 值 会 怎么 样 ? 例如 ,如 果 将 
这 个 值 调 低 ， 那 么 你 可 能 会 看 到 一 些 新 的 电影 推荐 ， 虽 然 闻所未闻 ， 但 仍 可 能 是 一 个 好 的 推荐 。 
如 果 将 这 个 值 调 得 更 高 ， 那 么 除了 那些 爆 红 大 片 ， 你 可 能 什么 也 看 不 见 。 


有 时 你 需要 思考 一 下 , 推荐 系统 到 底 应 该 给 出 什么 结果 ?是 要 向 人 们 展示 那些 他 们 知道 的 电 
影 , 还 是 那些 他 们 根本 不 知道 的 , 这 中 间 是 否 有 个 好 的 平衡 ? 是 发 现 新 电影 重要 ,还 是 推荐 熟悉 
的 电影 以 保持 人 们 对 推荐 系统 的 信赖 更 重要 ? 同样 ， 这 也 是 一 门 艺术 。 


在 结果 中 , 我 们 看 到 了 一 些 与 《乱世 佳人 》 相 似 的 电影 , 实际 上 我 是 不 喜欢 《乱世 佳人 》 的 ， 
这 也 是 一 个 可 以 改进 的 地 方 。 我 们 调 低 了 这 些 电影 相对 于 我 喜欢 的 电影 的 权重 , 但 或 许 应 该 对 这 
些 电影 进行 惩罚 。 如 果 我 讨厌 《乱世 佳人 光 那么 与 《乱世 佳人 》 相 似 的 电影 ， 比 如 《绿野仙踪 》， 
就 应 该 受到 惩罚 ， 不 但 不 能 提高 它们 的 评分 ， 还 要 降低 评分 。 


还 可 以 进行 另 一 项 简单 的 修改 。 在 用 户 评分 数据 集中 可 能 有 一 些 异 常 值 , 如 果 将 那些 评价 了 
荒 雇 数量 电影 的 用 户 去 掉 ， 会 怎么 样 ? 也 许 这 些 用 户 蛋 曲 了 所 有 结果 。 作 为 一 种 改善 方法 ,你 应 
该 试 着 找 出 这 些 用 户 , 然 后 将 他 们 去 掉 。 如 果 想 大 干 一 番 ， 全 身心 地 投入 到 这 个 项 目 中 ,你 就 应 
该 使 用 训练 /测试 的 方法 去 评价 推荐 引擎 的 结果 。 不 能 简单 随意 地 将 每 部 电影 的 相关 系数 相 加 作 
为 推荐 分 数 ， 而 是 要 为 每 部 电影 预测 一 个 评分 。 


如 果 推 荐 系统 的 输出 是 一 部 电影 和 这 部 电影 的 预测 评分 ， 那 么 在 一 个 训练 /测试 系统 中 ， 对 
于 用 户 以 前 真正 看 过 和 评价 过 的 电影 , 我 们 能 知道 预测 的 有 多 么 好 吗 ” 我 们 需要 留 出 一 些 评价 
数据 ,看 看 推荐 系统 对 这 些 电 影评 价 的 预测 效果 有 多 好 。 而且, 还 要 有 一 个 度量 推荐 引擎 预测 误 
差 的 定量 的 原则 性 的 方法 。 同 样 ， 这 种 方法 不 仅仅 是 一 门 科学 ， 从 某 种 程度 上 说 还 是 一 门 艺术 。 
尽管 Netflix 竞赛 获奖 者 使 用 的 是 均 方 根 误差 度量 方法 ， 但 它 真 的 是 适合 优秀 推荐 系统 的 度量 方 
法 吗 ? 


一 般 来 说 , 你 要 度量 的 是 推荐 系统 对 人 们 已 看 过 电影 的 评价 的 预测 能 力 , 而 不 是 推荐 系统 向 
人 们 推荐 他 们 没 看 过 ,但 可 能 喜欢 的 电影 的 能 力 。 二 者 不 是 一 回 事 。 遗 憾 的 是 ,我 们 真正 需要 度 
量 的 事情 却 非常 难以 实现 。 有 时 候 只 能 凭借 直觉 来 进行 度量 。 度量 推荐 引擎 结果 的 正确 方法 是 度 
量 推荐 引擎 的 提升 结果 。 


你 可 能 希望 使 人 们 看 更 多 的 电影 ， 或 者 给 新 电影 更 高 的 评价 ， 又 或 者 购买 更 多 内 容 。 相 对 于 
训练 /测试 法 ， 在 真实 网 站 上 运行 一 个 受 控 实 验 应 该 是 一 种 正确 的 优化 方法 。 这 里 我 讲 得 稍微 多 
了 一 点 , 但 你 要 知道 , 事情 并 不 总 是 非 黑 即 白 ， 有 时 候 确实 不 能 直接 地 、 定 量 地 去 度量 事物 ， 你 
不 得 不 使 用 一 点 常识 ， 推 荐 系统 的 度量 就 是 一 个 例子 。 
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无 论 如 何 , 我 们 给 出 了 改进 上 面 推荐 引擎 的 一 些 思 路 。 请 放手 去 修改 , 看 看 是 否 能 有 所 改善 ， 
最 好 能 在 其 中 找到 乐趣 。 这 确实 是 本 书 中 特别 有 趣 的 一 部 分 ， 希望 你 喜欢 ! 





6.8 小 结 


动手 去 做 吧 ! 看 看 你 能 否 改进 我 们 的 结果 。 这 里 有 一 些 比 较 简 单 的 提高 推荐 效果 的 想法 , 也 
有 一 些 比较 复杂 的 。 你 的 答案 没有 正确 与 错误 之 分 , 我 不 要 求 你 交 作业 , 也 不 会 去 评价 你 的 工作 。 
你 只 要 动手 去 做 、 去 熟悉 、 去 试验 ， 看 看 能 得 到 什么 结果 就 行 了 。 这 就 是 我 的 全 部 目的 一 一 让 你 
熟悉 使 用 Python 完成 任务 的 方法 ， 以 及 理解 基于 项 目的 协同 过 滤 背 后 的 理念 。 

本 章 介绍 了 几 种 不 同 的 推荐 系统 , 我 们 跳 过 了 基于 用 户 的 协同 过 滤 系 统 , 直接 研究 了 基于 项 
目的 协同 过 滤 系 统 ， 然 后 使 用 pandas 中 的 功能 生成 了 一 个 系统 ， 并 改进 了 结果 ， 和 希望 你 体会 到 
了 pandas 的 强大 威力 。 

下 一 章 将 介绍 更 高 级 的 数据 挖掘 和 机 器 学 习 技 术 ， 包 括 大 最 近邻 方法 。 期 待 下 一 章 的 学 习 ， 
希望 它 对 你 有 用 。 









































更 多 数据 挖掘 和 
机 器 学 习 技 术 








本 章 将 再 介绍 几 种 数据 挖掘 We 我 们 首先 介绍 一 种 非常 简单 的 技术 , 称 为 k 最 
近邻 KNN)， 然 后 使 用 KNN 预测 一 下 电影 评分 。 在 此 之 后 继续 介绍 数据 降 维 与 主 成 分 分 析 ， 
再 介绍 一 个 PCA 示例 ,将 4D 0 同时 保留 数据 的 大 部 分 方差 。 


接 下 来 ,我们 将 简单 介绍 数据 仓库 的 概念 ， 并 了 人 解 一 下 新 型 ELT 过 程 相对 于 ETL 过 程 的 优 
点 。 我 们 还 将 学 习 非 常 有 趣 的 强化 学 习 概 念 ， 并 介绍 吃 豆 游 戏 智 能 代理 背后 使 用 的 技术 。 最 后 再 
介绍 一 些 在 强化 学 习 中 使 用 的 时 瞩 名 词 。 


本 章 将 介绍 以 下 内 容 : 


口 £ 最 近邻 的 概念 ; 

D 使 用 KNN 预测 电影 评分 ; 

口 数据 降 维 与 主 成 分 分 析 ; 

口 对 竟 尾 花 数 据 集 的 PCA 示例 ; 

口 数据 仓库 以 及 ETL 与 ELT 的 比较 ; 
口 什么 是 强化 学 习 ; 

口 智能 吃 豆 游 戏 背 后 的 技术 ; 

口 强化 学 习 中 使 用 的 一 些 时 莒 名 词 。 



























































7.1 k 最 近邻 的 概念 

下 面 介 绍 几 种 雇主 希望 你 掌握 的 数据 挖 握 和 机 带 学 习 技术 。 先 从 一 个 非常 简单 的 技术 开始 ， 
它 简称 KNN。 你 一 定 会 感到 惊讶 ， 这 么 优秀 的 机 顺 学 习 技术 居然 如 此 简单 。 来 看 一 下 ! 

KNN 听 起 来 很 高 深 ,但 实际 上 是 最 简单 的 机 器 学 习 技 术 之 一 。 假 设 你 有 一 张 散 点 图 ， 而 且 
可 以 计算 出 散 点 图 上 任意 两 点 之 间 的 距离 。 青 假设 你 有 一 些 分 类 完成 的 数据 , 可 以 用 来 训练 系统 。 
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如 果 有 一 个 新 数据 点 ， 那 么 只 要 基于 距离 度量 使 用 KNN 方法 找 出 最 近邻 ， 然 后 让 最 近邻 投票 确 
定 新 数据 点 的 分 类 即 可 。 

假设 下 面 散 点 图 中 的 点 表示 电影 ,方块 表示 科幻 类 电影 ， 三 角形 表示 剧情 类 电影 。 我 们 可 以 
说 散 点 图 表示 的 是 评分 与 流行 度 之 间 的 关系 ， 当 然 也 可 以 是 你 能 想到 的 其 他 关系 。 






























































基于 散 点 图 中 两 个 点 的 评分 和 流行 度 ， 可 以 计算 出 两 点 之 间 的 某 种 距离 。 假 设 有 一 个 新 点 ， 
也 就 是 一 个 我 们 还 不 清楚 其 类 型 的 电影 。 我 们 要 做 的 就 是 设 定 为 3， 在 散 点 图 上 找 出 这 个 新 点 
的 3 个 最 近邻 ， 然 后 让 这 3 个 点 投票 确定 这 个 新 点 /电影 的 分 类 。 


从 图 中 可 以 看 出 , 如 果 取 3 个 最 近邻 (k=3 ), 则 可 以 找到 2 个 剧情 类 电影 和 !1 个 科幻 类 电影 。 
然后 让 它们 都 参与 投票 ,那么 根据 这 3 个 最 近邻 ,可 以 选择 新 点 的 分 类 为 剧情 类 。 如 果 扩 展 一 下 
图 中 的 圆 以 包括 5 个 最 近邻 ， 也 就 是 令 上 = 5, 那么 会 得 到 一 个 不 同 的 结果 。 这 样 ， 我 们 会 找 出 3 
个 科幻 类 电影 和 2 个 剧情 类 电影 。 如 果 让 它们 都 投票 ， 便 会 确定 新 电影 为 科幻 类 电影 。 


的 选择 是 非常 重要 的 。 你 要 确定 它 足 够 小 , 使 你 不 会 找 出 不 相关 的 邻居 , 同时 也 要 足够 大 ， 
使 你 能 够 找 出 有 意义 的 样本 。 所 以 ,通常 你 需要 使 用 训练 /测试 方法 或 类 似 的 技术 来 为 给 定 的 数 
据 集 确定 正确 的 磊 值 。 但 说 到 底 ， 还 是 要 从 直觉 开始 。 

这 就 是 上 最 近邻 ， 就 这 么 简单 。 它 是 一 种 非常 简单 的 技术 ， 你 只 需 在 散 点 图 上 找 出 大 个 最 近 
邻 , 让 它们 投票 确定 分 类 即 可 。 它 是 一 种 监督 式 学 习 方法 ， 因 为 它 使 用 一 组 已 知 分 类 的 点 作为 训 
练 数据 ， 以 此 来 推断 出 新 点 的 分 类 。 


让 我 们 使 用 KNN 做 一 些 更 复杂 的 工作 ， 根 据 元 数据 来 处 理 电 影 ， 看 看 能 和 否 基于 电影 的 固有 
数据 ( 比如 评分 和 类 型 ) 找 出 一 部 电影 的 最 近邻 。 




































































Dustomers Who Watched Thas hem Also Watched 
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理论 上 ， 可 以 使 用 最 近邻 重新 建立 一 个 “看 过 这 部 电影 的 顾客 也 看 过 ……”( 上 面 的 图 片 
是 Amazon 的 一 个 截图 ) 的 功能 。 还 可 以 更 进一步 : 一 旦 根据 上 最 近邻 算法 识别 出 与 某 部 电影 相 
似 的 电影 ， 就 可 以 让 这 些 电影 投票 确定 出 这 部 电影 的 评分 预测 值 。 


这 就 是 下 一 个 例子 中 要 做 的 事 。 有 既然 你 已 经 清楚 了 KNN 的 概念 ， 就 可 以 将 这 个 概念 应 用 到 
实际 例子 中 ， 找 出 彼此 相似 的 电影 ， 然 后 使 用 最 近邻 电影 预测 我 们 未 曾 看 过 的 电影 的 评分 。 










































































7.2 ”使 用 KNN 预测 电影 评分 


好 的 ， 现 在 使 用 KNN 的 简单 理念 来 解决 一 个 实际 的 复杂 问题 ， 根 据 一 部 电影 的 类 型 和 评价 
数量 预测 它 的 评分 。 我 们 看 看 基于 KNN 算法 预测 电影 评分 的 结果 如 何 。 如 果 你 想 跟着 练习 ， 请 
打开 KNN.ipynb 文件 ， 一 起 来 做 。 


我 们 需要 根据 电影 的 元 数据 定义 一 个 距离 指标 。 元 数据 指 的 是 电影 本 身 固有 的 数据 , 也 就 是 
与 电影 相关 的 数据 。 特 别 地 ， 我 们 要 检查 电影 的 类 型 。 


MovieLens 数据 集中 的 每 部 电影 都 有 一 个 其 所 属 类 型 的 附加 信息 。 一 部 电影 可 以 属于 多 个 
类 型 ， 比 如 科幻 、 剧 情 、 喜 剧 或 动画 。 我 们 还 会 检查 电影 的 流行 度 ， 也 就 是 评价 过 这 部 电影 的 人 
数 ， 并 且 还 知道 每 部 电影 的 平均 评分 。 将 这 些 信息 组 合 在 一 起 ,就 可 以 创建 一 个 距离 指标 ,这 个 
距离 指标 是 基于 两 部 电影 的 评分 信息 和 类 型 信息 的 。 来 看 看 这 样 做 能 得 到 什么 结 

我 们 将 再 次 使 用 pandas 以 使 工作 更 容易 一 些 。 如 果 你 正在 跟着 一 起 练习 3， 请 再 次 确认 将 

ovieLens 数据 库 的 路 径 更 改 为 了 你 的 安装 路 径 ， 它 和 本 书 中 的 路 径 肯 定 是 不 一 样 的 。 

如 果 你 想 跟着 做 , 那么 赶快 去 修改 路 径 吧 。 和 以 前 一 样 , 我 们 要 使 用 pandas 的 reagd_csv () 
函数 导入 评分 数据 文件 udata。 这 个 文件 是 使 用 制 表 符 进行 分 隔 的 ， 不 是 有 逗号 。 我 们 要 导入 文件 
的 前 3 列 ， 也 就 是 数据 集中 每 部 电影 的 user_id、movie_iqd 和 rating 数据 : 


import pandas as pd 























































































































r_cols = ['user_id', 'movie id', 'rating'] 

ratings = pd.read csv('C:\DataScience\ml-100k\u.data', sep='\t', 
names=r_cols, usecols=range(3)) 

ratings.head()ratings.head() 


运行 上 面 的 代码 ， 然 后 查看 前 几 条 记录 ， 结 果 如 下 。 














Out[ user_ id| movie id 
0|10 50 
1|0 172 
210 133 
3|196 242 
4|186 302 
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我 们 得 到 了 一 个 包括 user_idq、movie_id 和 rating 的 数据 框 。 例 如 ，user_iq 为 0 的 
用 户 对 movie_id 为 50 的 电影 (我 相信 是 《星球 大 战 》) 的 评分 是 5 星 ， 等 等 。 


下 一 步 要 汇集 每 部 电影 的 评分 数据 ,这 需要 使 用 pandas 中 的 grouppy () 函数 按照 movie_iq 
进行 聚集 。 我 们 要 将 每 部 电影 的 所 有 评分 数据 都 合并 起 来 ,然后 输出 评价 数量 和 平均 评分 也 就 
是 评分 的 均值 : 

movieProperties = ratings.groupby ('movie id').agg({'rating': 


[np.size, np.mean]}) 
movieProperties .head () 


运行 上 面 的 代码 ， 速 度 非常 快 ， 结 果 如 下 。 


























Out[3]: 





size | mean 























代码 为 我 们 生成 了 一 个 新 数据 框 ， 以 其 中 一 条 记录 为 例 ， 它 告诉 我 们 movie_ia 为 1 的 电 
影 有 452 条 评价 ( 这 就 是 电影 的 流行 度 , 表示 有 多 少 人 看 过 电影 并 进行 了 评价 ), 评分 均值 是 3.8。 
所 以 ,有 452 人 看 过 了 movie_ia 为 1 的 电影 , 而 且 给 出 的 平均 评分 是 3.87, 这 是 个 相当 高 的 评分 。 

原始 评分 数据 对 我 们 没什么 用 , 我 的 意思 是 我 们 不 知道 452 是 否 意味 着 电影 很 受 欢迎 。 为 了 
进行 标准 化 ， 必 须 将 这 个 评分 与 所 有 电影 的 最 多 评分 数量 和 最 少 评分 数量 比较 一 下 。 可 以 使 用 
lambda 函数 来 完成 这 个 任务 。 因 此 ， 可 以 对 整个 数据 框 都 应 用 一 个 函数 。 


我 们 需要 使 用 np .min() 和 np.max() 函数 找 出 数据 集中 评价 数量 的 最 大 值 和 最 小 值 ， 也 就 
是 要 找 出 最 受 欢迎 的 电影 和 最 不 受 欢迎 的 电影 ， 在 这 个 范围 内 对 所 有 评价 数量 进行 标准 化 : 







































































movieNumRatings = pd.DataFrame (movieProperties['rating']['size']) 
movieNormalizedNumRatings = movieNumRatings.apply (lambda x: (x - np.min(x)) 
/ (np.max(x) - np.min (x))) 


movieNormalizedNumRatings.head() 


代码 运行 后 的 结果 如 下 。 
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这 就 是 每 部 电影 的 流行 度 , 范围 在 0 和 1 之 间 。0 表示 没有 人 看 过 , 它 是 最 不 流行 的 电影 ; 1 
表示 所 有 人 都 看 过 ， 它 是 最 流行 的 电影 ， 更 准确 地 说 ， 是 最 多 人 看 过 的 电影 。 这 样 ， 我 们 就 有 了 
行 度 自 
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一 个 度量 电影 流行 度 的 指标 ， 其 可 以 用 来 计算 电影 之 间 的 距离 。 


接 下 来 再 提取 一 些 通用 信息 。 我们 有 一 个 uitem 文件 ， 其 中 不 仅 包含 电影 名 称 , 还 包含 了 每 
部 电影 的 类 型 : 























movieDict = {} 
with open(r'c:/DataScience/ml-100k/u.item') as f: 
temp = "" 


foOP "le i 
fields es, LInevrstriB( Nn ) . Split("| 2) 
movieID = int (fields[0]) 
name = fields[1] 
genres = fields[5:25] 
genres = map(int, genres) 
movieDict [movieID] = (name, genres, 
movieNormalizedNumRatings.loc[movieID] .get ('size'),movieProperties.loc[movieID]. 
rating.get ('mean')) 
上 面 的 代码 可 以 遍历 uitem 中 的 每 一 行 。 这 次 使 用 的 不 是 简单 方法 ， 我们 没有 使 用 任何 
pandas 函数 ， 而 是 直接 使 用 了 Python 人 代码。 同样， 确定 你 已 将 代码 中 的 路 径 改 成 了 自己 机 器 上 


的 路 径 。 


下 一 步 , 打开 uitem 文件 ,依次 遍历 文件 中 的 每 一 行 ， 除 去 每 行 末尾 的 换行 符 ， 按 照 竖 线 分 
隔 符 对 行进 行 拆 分 。 这 样 就 可 以 提取 出 movieID、 电 影 名 称 和 电影 类 型 。 源 数据 中 有 19 个 字段 
表示 电影 类 型 每 个 字段 表示 一 种 类 型 , 它们 的 值 都 是 0 或 1。 然 后 , 我 们 创建 一 个 Python 字典 ， 
将 电影 的 ID 映射 为 电影 名 称 、 电 影 类 型 ， 以 及 前 面 得 到 的 标准 化 后 的 评价 数量 和 评分 均值 。 这 
样 ， 我 们 就 得 到 了 电影 名 称 、 电 影 类 型 、 在 0 和 1 之 间 的 流行 度 和 平均 评分 。 这 就 是 这 段 代码 的 
作用 。 运 行 一 下 这 段 代 码 ， 看 看 能 得 到 什么 结果 。 取 出 movie_iaq 为 1 的 值 看 一 下 : 


movieDict[1] 


上 面 代码 的 输出 结果 如 下 。 
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("Toy Story (1995) "， 
[95,0 0 i 0 Bs 
8.77358498566837741， 
3.8783185848787963) 





























字典 中 movie_ig 为 1 的 项 目 是 《玩具 总 动员 》, 一 部 1995 年 的 皮克斯 老 电影 , 你 可 能 听 说 
过 。 电 影 名 称 后 面 是 类 型 列表 ，0 表示 不 属于 该 类 型 ，1 表示 属于 该 类 型 。MovieLens 数据 集中 
有 一 个 数据 文件 ， 它 会 告诉 你 这 些 字段 对 应 的 到 底 是 哪 种 类 型 。 


从 我 们 的 目的 出 发 , 这 些 类 型 到 底 是 什么 并 不 重要 , 我 们 只 是 基于 这 些 类 型 来 计算 电影 之 间 
的 距离 。 从 数学 的 角度 来 看 ， 重 要 的 只 是 不 同 电影 类 型 向 量 的 相似 程度 ， 至 于 电影 类 型 本 身 ， 根 
本 不 重要 ! 我 们 想 要 知道 的 是 ， 两 部 电影 在 类 型 上 相似 或 差异 的 程度 有 多 大 。 现 在 有 了 《玩具 总 
动员 》 的 类 型 列表 、 计 算出 的 流行 度 ， 以 及 平均 评分 ,可 以 将 这 些 信息 组 合 为 一 个 距离 指标 ， 然 
后 找 出 《玩具 总 动员 》 的 上 最 近邻 。 


我 们 使 用 computeDistance () 函数 来 计算 距离 ， 它 先 读 入 两 部 电影 的 ID ， 然 后 计算 出 两 
部 电影 之 间 的 距离 。 首 先 ， 函数 使 用 余弦 相似 度 计算 出 两 个 类 型 向 量 之 间 的 相似 度 。 和 前 面 说 的 
一 样 ， 要 使 用 每 部 电影 的 类 型 列表 找 出 两 部 电影 之 间 的 相似 程度 。 再 说 一 遍 ，0 表示 不 属于 该 类 
型 ，! 表示 属于 该 类 型 。 


然后 ， 我 们 比较 两 部 电影 的 流行 度 ， 将 两 部 电影 流行 度 的 差 的 绝对 值 也 作为 一 个 距离 指标 。 
最 后 将 这 个 绝对 值 与 前 面 的 余弦 相似 度 相 加 作为 两 部 电影 之 间 的 距离 。 举 个 例子 , 如 果 要 计算 ID 
为 2 和 卫 为 4 的 电影 之 间 的 距离 ， 这 个 函数 就 会 返回 基于 这 两 部 电影 的 流行 度 和 类 型 计算 出 的 
距离 。 


你 可 以 想象 有 一 张 散 点 图 , 就 像 前 面 小 节 中 的 例子 一 样 , 它 的 一 条 坐标 轴 是 基于 余弦 相似 度 
的 类 型 相似 度 ， 另 一 条 坐标 轴 是 流行 度 ， 我 们 就 是 要 找 出 这 两 者 之 间 的 距离 : 


from scipy import spatial 























































































































def ComputeDistance(a, b): 
genresA = al[lll] 
genresB = bl[1] 
genreDistance = spatial.distance.cosine(genresA, genresB) 
popularityA = a[2] 
BOpULarityBe: [2:] 
popularityDistance = abs (popularityA - popularityB) 
return genreDistance + popularityDistance 
ComputeDistance (movieDict[2], movieDict[4]) 


在 这 个 例子 中 ， 我 们 要 计算 出 ID 为 2 和 ID 为 4 的 电影 之 间 的 距离 ， 结 果 是 0.8。 























B.8664574642369891 











请 记 住 ， 距离 远 表示 不 相似 。 我 们 要 找 出 最 近邻 ， 所 以 要 使 用 最 小 距离 。 那 么 , 在 0 和 1 的 
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范围 内 ，0.8 是 一 个 相当 高 的 值 。 所 以 ， 这 说 明 这 两 部 电影 非常 不 相似 。 下 面 快速 检查 一 下 ， 看 
看 是 哪 两 部 电影 : 


print movieDict[2] 
print movieDict[4] 


它们 是 《黄金 眼 》 和 《矮子 当道 》 确 实 差别 比较 大 。 














{'GoldenEye (1995)', [8, 1, 1, 8, 8, 8, 8, 98, 8, 98, 8, 8, 8, 6, 8, 9, 1, 8, 8], 8.22298456268728412, 3.28618668782298876) 
('Get Shorty (1995)', [8, 1, 8, 8, 8, 1, 68, 8, 1, 8, 98, 9, 8, 98, 9, 8, 9, 9, 8], 8.35677538817152659, 3.55802392344497689) 
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你 看 , 一 个 是 007 动作 冒险 片 ， 另 一 个 是 喜剧 片 一 一 根本 不 一 样 。 它 们 在 流行 度 上 确实 有 一 
比 ， 但 类 型 凶 然 不 同 。 好 吧 ， 把 它们 放 在 一 起 吧 。 

接 下 来 ,我 们 要 写 点 代码 取 某 个 特定 的 电影 ID ， 然 后 找 出 它 的 最 近邻 。 我 们 要 做 的 就 是 计 
算出 《玩具 总 动员 》 和 我 们 的 电影 字典 中 所 有 其 他 电影 之 间 的 距离 ， 然 后 基于 距离 进行 排序 。 这 
就 是 接 下 来 这 段 代码 要 做 的 事 。 如 果 你 想 花 点 时 间 好 好 琢磨 一 下 ， 这 段 代码 非常 简单 。 























我 们 要 编写 一 个 非常 简单 的 getNeighbors () 函数 ， 它 会 读 入 我 们 感 兴趣 的 电影 ， 以 及 需 











找 出 的 最 近邻 数量 。 














然后 ， 它 会 遍历 所 有 电影 ， 如 果 发 现 了 符合 我 们 要 求 的 新 电影 ， 就 算出 








它 的 距离 ， 将 其 追加 到 结果 列表 中 ， 并 对 结果 排序 。 最 后 ， 返 回 前 大 个 结果 。 


在 这 个 例子 中 ,要 将 设 定 为 10, 找到 10 个 最 近邻 。 我 们 要 使 用 getNeighbors () 函数 找 
出 10 个 最 近邻 ， 然 后 遍历 这 10 个 最 近邻 ,计算 出 所 有 近邻 的 评分 的 均值 ， 这 个 平均 评分 就 是 对 


《玩具 总 动员 》 的 六 


























FE 分 预测 。 


作为 一 种 副作用 ， 我 们 还 基于 距离 函数 得 到 了 10 个 最 近邻 ， 可 以 称 它们 为 相似 


功能 , 如 果 你 想 基于 距离 度量 而 不 是 实际 的 行为 数据 来 实现 同样 的 功能 , 那么 这 


6 电影 ,这 个 信息 本 身 就 是 非常 有 用 的 。 回 到 “看 了 这 部 电影 的 顾客 也 看 了 ”这 项 


里 就 是 一 个 非常 好 的 起 点 。 


import operator 


def getNeighbors (movieID, K): 


distances = [] 
for movie in movieDict: 
if (movie != movieID) : 
dist = ComputeDistance (movieDict [movieID], 


movieDict [movie 


) 


distances.append( (movie, dist)) 
distances.sort (key=operator.itemgetter(1)) 


neighbors = 





] 


for x in range (K): 
neighbors.append (distances [x] [0]) 
return neighbors 
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K=O 

avgRating = 0 

neighbors = getNeighbors (1, K) 

for neighbor in neighbors: 
avgRating += movieDict [neighbor][3] 
print movieDict[neighbor]{[0] + " "+ 

str(movieDict [neighbor] [3]) 

avgRating /= float (K) 


上 面 代码 的 运行 结果 如 下 。 





Liar Liar (1997) 3.15676163693 
Aladdin (1992) 3.81278538813 

Willy Wonka and the Chocolate Factory (1971) 3.63198184849 
Monty Python and the Holy Grail (1974) 4.8664556962 

Full Monty, The (1997) 3.92698412698 

George of the Jungle (1997) 2.68518518519 

Beavis and Butt-head Do America (1996) 2.78846153846 
Birdcage, The (1996) 3.44368688683 

Home Alone (1998) 3.68759124688 

Aladdin and the King of Thieves (1996) 2.84615384615 














结果 还 可 以 接受 。 以 卫 为 1 的 《玩具 总 动员 》 为 例 , 它 的 前 10 个 最 近邻 包括 了 一 些 喜 剧 和 
儿童 电影 ， 这 是 个 不 错 的 结果 。《 玩 具 总 动员 》 是 部 流行 喜剧 和 儿童 电影 ， 于 是 我 们 得 到 了 一 些 
其 他 的 喜剧 和 儿童 电影 。 所 以 , 这 种 方法 应 该 是 有 效 的 ! 我 们 不 必 使 用 听 上 去 很 高 级 的 协同 过 滤 
算法 ， 得 到 的 结果 也 非常 不 错 。 

下 一 步 就 是 使 用 KNN 预测 电影 评分 ， 我们 认为 这 部 电影 的 评分 是 : 


avgRating 


上 面 代码 的 运行 结果 如 下 。 













































































3.3445985988235564 

















预测 评分 是 3.34， 与 这 部 电影 的 实际 评分 3.87 相差 不 大 。 尽 管 不 是 很 理想 ， 但 也 不 坏 ! 我 
的 意思 是 ， 如 此 简单 的 算法 能 取得 这 样 的 结果 已 经 是 个 惊喜 了 。 





练习 


这 个 例子 中 的 大 多 数 复杂 性 在 于 如 何 确定 距离 。 为 了 保持 趣味 性 , 我 们 故意 把 这 个 距离 弄 得 
比较 高 级 ， 你 可 以 任意 试用 其 他 的 距离 方式 。 如 果 你 想 修改 一 下 这 个 例子 ,， 那 我 完全 文 持 你 。 我 
们 选择 E 值 为 10， 没 有 任何 依据 ， 只 是 随意 的 选择 。 不 同 的 上 值 会 产生 什么 影响 呢 ? 大 值 再 高 一 
些 或 低 一 些 会 不 会 结果 更 好 ? 大 值 是 否 很 重要 ? 


如 果 你 真 的 想 多 做 一 些 相关 练习 , 那么 可 以 试 着 应 用 一 下 训练 /测试 方法 ,找到 使 用 KNN 方 
法 预测 电影 评分 的 最 优 值 。 你 还 可 以 使 用 不 同 的 距离 测量 方式 , 例子 中 的 距离 测量 方式 也 是 我 
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自己 弄 出 来 的 ! 自己 去 试验 各 种 距离 吧 ， 可 以 使 用 男 外 的 信息 ,也 可 以 使 用 不 同 的 权重 。 这 事 儿 
做 起 来 非常 有 意思 。 或 许 , 流行 度 不 如 电影 类 型 那么 重要 ,也 可 能 相反 。 看 看 它们 对 结果 能 有 什 
么 影响 。 还 可 以 试验 各 种 算法 , 编写 各 种 代码 ,看 看 你 能 得 到 什么 结果 ! 如 果 你 真 的 取得 了 显著 
的 进展 ,请 一 定 要 与 他 人 分 享 。 


这 就 是 KNN 实战 ! KNN 的 概念 非常 简单 ,但 威力 确实 很 大 。 它 让 我 们 知道 : 仅仅 通过 类 型 
和 流行 度 就 能 找到 相似 的 电影 ， 而 且 效 果 相当 好 ! 通过 KNN 方法 ， 可 以 使 用 最 近邻 预测 新 电影 
的 评分 ,预测 结果 也 非常 不 错 。 这 就 是 KNN, 一 种 非常 简单 的 技术 , 但 常常 会 取得 惊人 的 效果 。 


7.3 ”数据 降 维 与 主 成 分 分 析 


好 的 ,是 时 候 学习 一 些 真 正高 级 的 东西 了 ! 下 面 我 们 要 介绍 高 维 数据 和 数据 降 维 方法 。 听 起 
来 很 可 怕 吧 ! 这 部 分 内 容 要 涉及 一 些 比较 高 深 的 数学 知识 ,但 概念 并 不 像 你 想 的 那么 难以 理解 。 
接 下 来 我 们 介绍 数据 降 维和 主 成 分 分 析 ， 真 令 人 激动 ! 当 人 们 说 起 数据 降 维 时 , 通常 使 用 的 技术 
就 是 主 成 分 分 析 ， 简称 PCA ， 还 有 一 种 特别 的 技术 称 为 奇异 值 分 解 ， 简 称 SVD。 所 以 ， 本 节 内 
容 就 是 PCA 和 SVD ， 开 始 吧 ! 













































































7.3.1 数据 降 维 


什么 是 “ 维 数 灾难 ”? 当 数 据 有 很 多 维度 时 , 会 引发 一 系列 问题 。 例 如 , 在 进行 电影 推荐 时 ， 
我 们 有 各 种 各 样 的 电影 ， 每 一 部 电影 都 可 以 被 认为 是 数据 空间 中 的 一 个 维度 。 


如 果 有 很 多 电影 ， 就 会 有 很 多 维度 。 当 超过 3 个 维度 时 ， 大 脑 就 难以 理解 了 ， 因 为 我 们 都 是 
在 三 维 空间 中 长 大 的 。 但 我 们 肯定 会 遇 到 具有 多 个 不 同 特征 的 数据 ， 比 如 前 面 为 高 尾 花 进 行 分 类 
时 ， 就 是 根据 它们 的 4 个 不 同 特征 进行 分 类 的 。4 个 不 同 特征 就 是 表示 4 个 维度 的 4 种 指标 ， 很 
难 进行 可 视 化 。 

正 是 由 于 这 个 原因 ,我 们 需要 使 用 数据 降 维 技术 将 高 维度 的 数据 缩减 为 低 维度 数据 。 这 样 不 
但 可 以 使 数据 更 易于 查看 和 归 类 ,而且 有 利于 数据 压缩 。 在 降低 维度 数量 时 ， 要 最 大 限度 地 保留 
原来 的 方差 , 这 样 可 以 更 加 简洁 地 表示 一 个 数据 集 。 一 种 常见 的 数据 降 维 应 用 不 仅 可 以 进行 数据 
可 视 化 ， 还 可 以 压缩 数据 和 提取 特征 ， 随 后 我 们 会 对 此 进行 更 多 讨论 。 


可 以 认为 均值 聚 类 是 一 种 非常 简单 的 数据 降 维 方法 。 
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比如 ,我 们 从 很 多 数据 点 开始 ， 每 个 数据 点 都 代表 数据 集中 的 不 同 维度 。 但 最 终 ， 可 以 将 这 
些 数 据点 转换 为 个 不 同 的 中 心 点 以 及 到 这 些 中 心 点 的 距离 。 这 就 是 将 数据 降低 到 低 维 表示 的 一 
个 例子 。 


7.3.2 主 成 分 分 析 


通常 ， 当 人 们 说 起 数据 降 维 时 ,， 指 的 就 是 一 种 称 为 主 成 分 分 析 的 技术 。 这 是 一 种 非常 高 级 的 
技术 , 需要 相当 多 的 数学 知识 。 但是， 从 更 高 的 层次 来 看 ,你 只 需 知 道 它 要 处 理 的 是 一 个 高 维 数 
据 空间 ， 并 要 在 这 种 空间 中 找 出 儿 个 平面 。 


这 些 高 维 平面 称 为 超 平 面 , 定义 超 平 面 的 向 量 称 为 特征 向 量 。 最 后 需要 儿 个 维度 ,你 就 要 找 









































出 几 个 超 平面 ， 将 数据 投射 到 超 平面 上 之 后 ， 它 们 就 成 为 了 低 维 数据 空间 中 的 新 轴 。 
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除非 你 精通 高 维 数学 , 并 且 以 前 仔细 思考 过 这 个 问题 , 否则 一 定 难 以 理解 以 上 内 容 。 但 说 到 
底 , PCA 就 是 在 高 维 空间 中 选择 能 够 保持 数据 中 大 多 数 方差 的 超 平面 , 然后 将 数据 投射 到 这 些 高 
维 平面 上 ， 从 而 得 到 一 个 低 维 的 数据 空间 。 























要 使 用 PCA， 你 无 须 理解 其 中 的 所 有 数学 知识 。 最 重要 的 一 点 是 ， 它 是 一 种 非常 规范 的 方 
法 ,在 将 一 个 数据 集 降低 维度 的 同时 仍然 保留 其 中 大 部 分 方差 。 图 像 压缩 就 是 PCA 的 应 用 之 一 ， 
如 果 想 降低 一 个 图 像 的 维度 ， 可 以 使 用 PCA 只 保留 它 的 精华 部 分 。 
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面部 识别 是 PCA 的 男 一 个 应 用 。 如 果 我 们 有 一 个 人 脸 数 据 库 ， 可 能 每 张 脸 都 表示 二 维 图 像 
的 第 三 个 维度 ,我 们 需要 对 其 降 维 。 奇 异 值 分 解 和 主 成 分 分 析 都 可 以 用 来 识别 出 脸 部 的 主要 特征 。 
例如 ， 它 们 可 能 最 后 集中 于 眼睛 和 嘴 ， 这 些 重要 特征 是 保持 原 有 数据 集中 方差 所 必需 的 。 所 以 ， 
这 些 技术 可 以 从 数据 中 得 到 非常 有 趣 也 非常 有 用 的 结果 ， 真 是 太 棒 了 ! 


我 们 使 用 高 尾 花 数据 集 给 出 一 个 PCA 的 实际 例子 , 这 是 一 个 包含 在 scikit-learn 中 的 数据 集 。 
这 个 数据 集 经 常用 于 示例 。 例子 的 基本 思路 是 : 高 尾 花 实际 上 有 两 种 不 同 的 花 泊 , 一 种 是 真 的 花 
状 ， 即 常见 的 花 辩 ， 另 一 种 实际 上 是 更 片 ， 也 就 是 花 辩 下 面 的 支撑 部 分 。 


我 们 可 以 找到 很 多 不 同 种 类 的 萝 尾 花 ， 量 出 它们 花 准 的 长 度 和 宽度 以 及 莹 片 的 长 度 和 宽度 。 
花瓣 的 长 度 和 宽度 、 莹 片 的 长 度 和 宽度 是 4 种 不 同 的 指标 ， 对 应 于 数据 集 的 4 个 维度 。 我 们 想 使 
用 这 些 信息 来 区 分 一 株 芒 尾 花 属于 哪个 种 类 。PCA 可 以 让 你 在 二 维 空间 进行 数据 可 视 化 , 而 不 是 
四 维 空间 ， 而 且 同 时 保持 数据 集中 的 大 部 分 方差 。 下 面 就 来 看 看 PCA 的 效果 ， 并 编写 代码 在 芒 
尾 花 数据 集 上 实现 PCA。 


这 就 是 数据 降 维 、 主 成 分 分 析 和 奇异 值 分 解 的 概念 ， 都 是 些 高 级 名 词 ， 它 们 做 的 也 确实 是 高 
级 的 事情 。 要 知道 ， 我 们 要 在 保留 大 部 分 方差 的 情况 下 将 高 维 空间 降 为 低 维 空间 。 笠 运 的 是 ， 
scikit-learn 可 以 非常 容易 地 实现 PCA， 你 要 做 的 只 是 写 3 行 代码 。 下 面 来 试 试 。 




























































































































































































7.4 对 车 尾 花 数据 集 的 PCA 示例 


让 我 们 在 高 尾 花 数据 集 上 应 用 主 成 分 分 析 。 这 是 个 四 维 数据 集 , 我 们 要 将 其 降低 到 二 维 。 我 
们 将 看 到 ， 即 使 丢掉 了 一 半 维 度 , 仍然 可 以 保留 数据 集中 的 大 部 分 信息 。 这 个 例子 非常 棒 ， 也 非 
常 简 单 。 下 面 来 进行 主 成 分 分 析 ， 治 愈 维 数 灾难 。 请 打开 PCA.ipynb 文 件 。 


使 用 scikit-learn 可 以 非常 容易 地 实现 PCA。 再 说 一 遍 ，PCA 是 一 种 数据 降 维 技术 ， 它 处 理 
的 都 是 高 维 数据 ， 这 听 起 来 有 些 科幻 色彩 。 为 了 使 它 具 体 且 真实 一 些 , 我 们 讨论 一 下 它 的 一 种 常 
见 应 用 一 一 图 形 压 缩 。 你 可 以 将 一 张 黑 白 照片 看 作 三 维 数据 ， 其 中 x 轴 是 宽度 ，y 轴 是 高 度 ， 每 
个 独立 单元 都 有 一 个 亮度 值 ， 范 围 从 0 到 1， 也 就 是 黑 或 白 , 或 中 间 值 。 所 以 ,这 是 三 维 数据 ， 
你 有 两 个 空间 维度 ， 还 有 一 个 亮度 和 密度 维度 。 


如 果 你 想 对 图 像 进行 压缩 ， 将 其 提炼 为 二 维 数据 ， 如 果 你 想 使 用 一 种 技术 尽 可 能 地 保留 图 
像 中 的 方差 , 使 你 可 以 在 理论 上 不 丢失 大 量 信息 的 情况 下 重新 恢复 图 像 , 那么 这 就 是 数据 降 维 的 
一 个 实际 例子 。 


下 面 我 们 要 使 用 意 尾 花 数据 集 提 供 另 一 个 例子 。 这 个 数据 集 包 含 在 scikit-learn 中 , 里 面 有 各 
种 竟 尾 花 的 数据 ， 以 及 每 种 营 尾 花 所 属 的 分 类 。 和 前 面 说 的 一 样 ， 其 中 还 有 每 种 竟 尾 花 的 花 办 和 
划 片 的 长 度 和 宽度 。 所 以 ,， 花 为 的 长 度 和 宽度 加 上 要 片 的 长 度 和 宽度 ， 这 个 数据 集中 有 4 个 维度 
的 特征 数据 。 
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我 们 要 将 这 份 数据 提炼 成 能 够 看 到 和 理解 的 数据 ， 因 为 我 们 的 思维 不 能 很 好 地 处 理 四 维 数 
据 ， 但 可 以 非常 容易 地 理解 画 在 一 张 纸 上 的 二 维 数据 。 来 看 下 面 的 代码 : 








from sklearn.datasets import load_iris 
from sklearn.decomposition import PCA 
import pylab as pl 

from itertools import cycle 


LEiS SLToad Teies() 


numSamples, numFeatures = iris.data.shape 
print numSamples 

print numFeatures 

print list (iris.target_ names) 


scikit-learn 中 有 一 个 非常 方便 好 用 的 函数 1oaq_iris() ， 可 以 直接 载 人 营 尾 花 数 据 集 ， 不 
用 任何 额外 工作 , 这 样 你 便 可 以 将 注意 力 集中 在 感 兴趣 的 部 分 。 来 看 一 下 数据 集中 的 内 容 ， 上 面 
代码 的 运行 结果 如 下 。 
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['setosa', 'versicolor', 'virginica'] 














从 上 图 可 知 ,我们 提取 出 了 数据 集 的 结构 ， 知 道 了 数据 集中 有 多 少 个 数据 点 ， 即 150 个 ,还 
知道 了 其 中 有 和 多少 个 特征 ， 也 就 是 多 少 个 维度 ， 即 4 个 。 所 以 ,我 们 有 150 条 营 尾 花样 本 信息 ， 
信息 有 4 个 维度 。 再 说 一 次 ,数据 集 的 4 个 特征 是 花 流 的 长 度 和 宽度 以 及 更 片 的 长 度 和 宽度 ， 可 
以 将 它们 看 作 4 个 维度 。 


还 可 以 打印 出 数据 集 的 目标 名 称 列表 , 也 就 是 分 类 名 称 。 由 此 我 们 知道 每 株 蕊 尾 花 都 属于 以 
下 三 个 种 类 之 一 : 山 葛 尾 、 杂 色 高 尾 以 及 维 吉 尼 亚 苇 尾 。 这 就 是 我 们 要 人 处理 的 数据 : 150 个 音 尾 
花样 本 ， 分 为 3 个 类 别 ， 每 个 样本 有 4 个 特征 。 


下 面 来 看 一 下 实现 PCA 有 多 么 容易 。 尽 管 PCA 底层 的 技术 很 复杂 , 但 只 需 几 行 代 码 就 可 以 实 
现 它 。 先 将 整个 营 尾 花 数据 集 赋 给 一 个 对 象 X, 然后 建立 一 个 PCA 模型 , 设 定 n_components = 2， 
因为 我 们 需要 两 个 维度 ， 也 就 是 说 ， 我 们 要 将 数据 集 从 四 维 降低 到 二 维 。 


还 要 设 定 whiten = True， 这 意味 着 要 对 所 有 数据 进行 标准 化 ， 以 保证 它们 彼此 之 间 可 以 
互相 比较 。 一般 来 说 , 标准 化 可 以 帮助 我 们 取得 更 好 的 结果 。 然 后 , 我 们 对 高 尾 花 数据 集 x 拟 合 
一 个 PCA 模型 。 在 此 之 后 ， 可 以 使 用 这 个 模型 将 数据 集 转换 为 二 维 。 运 行 下 面 的 代码 ， 很 快 就 
能 得 到 结果 1! 

xX = iris.data 


pca = PCA(n_ components=2, whiten=True) .fit(x) 
X_pca = pca.transftorm(X) 
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请 思考 一 下 发 生 了 什么 。 我 们 创建 了 一 个 PCA 模型 将 四 维 数据 降低 到 了 二 维 ， 做 法 是 选择 
两 个 四 维 向 量 创建 一 个 超 平面 ， 然 后 将 四 维 数据 投射 到 两 个 维度 上 。 你 可 以 打印 出 PCA 模型 的 
主 成 分 , 看 看 这 两 个 四 维 向 量 ( 也 就 是 特征 向 量 ) 到 底 是 什么 。PCA 表示 主 成 分 分 析 〈Principal 
Component Analysis)， 这 些 主 成 分 就 是 用 来 定义 超 平面 的 特征 向 量 : 


print pca.components_ 


上 面 代码 的 运行 结果 如 下 。 


























[[ 8.36158968 -8.88226889 8.85657211 8.35884393] 
[-8.65653988 -8.72971237 8.1757674 8.87478647]] 














你 可 以 看 看 这 些 值 ， 它 们 对 你 来 说 意义 不 大 ， 因 为 我 们 无 法 想象 出 4 个 维度 , 但 是 可 以 让 你 
知道 主 成 分 做 了 一 些 什么 事情 。 来 评价 一 下 结 


print pca.explained variance ratio_ 
print sum(pca.explained variance_ ratio ) 


PCA 模型 中 有 一 个 结果 称 为 sxplaineq_variance_ratio， 它 会 告诉 你 在 降 到 二 维 之 后 ， 
原来 的 四 维 数据 中 有 多 少 方差 被 保留 下 来 。 来 看 看 这 个 结果 。 














[ 8.92461621 8.85381557] 
8.977631775825 














结果 是 一 个 2 元素 列表 ,因为 我 们 保留 了 两 个 维度 。 列 表 告 诉 我 们 在 第 一 个 维度 上 保留 了 源 
数据 92% 的 方差 ， 而 第 二 个 维度 仅 贡 献 了 其 余 5% 的 方差 。 如 果 把 它们 加 在 一 起 ， 那 么 在 投射 数 
据 的 两 个 维度 上 我 们 就 保留 了 源 数 据 中 超过 97% 的 方差 ,由 此 可 知 ,要 捕获 数据 集中 的 全 部 信息 ， 
4 个 维度 不 是 必要 的 。 一 个 非常 有 趣 的 结论 ， 一 个 非常 棒 的 结果 ! 


为 什么 会 这 样 呢 ? 或 许 高 尾 花 的 整体 大 小 与 它 的 种 类 之 间 存 在 某 种 关系 ,或许 花瓣 的 长 度 和 
宽度 与 莹 片 的 长 度 和 宽度 之 间 存 在 某 种 比例 。 对 于 某 个 种 类 ,有 些 特征 会 随 着 其 他 特征 一 起 变化 。 
所 以 ，PCA 可 能 提取 出 了 4 个 维度 之 间 的 茶 种 关系 。 可 见 ，PCA 是 一 种 非常 强大 的 方法 。 下 面 
对 结果 进行 可 视 化 。 


将 这 个 数据 集 降 为 二 维 的 主要 目的 就 是 要 使 我 们 能 够 建立 一 张 美观 的 二 维 散 点 图 , 至 少 在 这 
个 例子 中 是 这 样 的。 我 们 要 使 用 Matplotlib 中 的 强大 功能 来 进行 可 视 化 ， 其 中 有 些 内 容 已 经 提 到 
过 了 。 我 们 要 创建 一 个 颜色 列表 : 红 、 绿 和 蓝 。 然 后 再 创建 一 个 目标 DD 列表 , 用 0、1 和 2 分 别 
表示 不 同 的 葛 尾 花 种 类 。 

将 这 两 个 列表 和 每 种 高 尾 花 种 类 名 称 打 成 一 个 包 ， 然后 使 用 for 循环 在 3 种 高 尾 花 种 类 之 
间 迭 代 。 在 迭代 过 程 中 , 我们 会 依次 得 到 每 个 高 尾 花 种 类 的 索引 、 与 种 类 对 应 的 颜色 以 及 实际 名 
称 。 每 次 处 理 一 个 种 类 ,在 散 点 图 中 使 用 相应 的 颜色 和 相应 的 标签 绘制 出 该 种 类 的 数据 。 然 后 添 
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加 图 例 并 显示 图 形 : 
colors = cycle('rgb') 
target_ids = range(len(iris.target names)) 
pl.figure() 
for i, c, label in zip(target_ids, colors, iris.target names): 
pl.scatter (X_pcaliris.target == i, 0], X_ pcaliris.target == i, 1], 
c=c, label=label) 
pl.legend() 
pl.show!() 
结果 如 下 。 
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这 就 是 我 们 投射 到 两 个 维度 上 的 四 维 数 据 ， 相 当 有 趣 ! 可 以 看 出 ,这 些 数 据 还 非常 好 地 保持 
着 原来 的 分 组 。 维 吉 尼 亚 音 尾 聚 集 在 右 侧 ， 杂 色 音 尾 位 于 图 形 中 间 , 山 音 尾 抓 零 堆 的 在 左边 。 很 
难 想象 出 这 些 实际 数据 的 意义 ， 但 重要 的 是 ， 我 们 将 四 维 数据 投射 成 了 二 维 数据 ， 同 时 保留 了 
方差 。 我 们 还 能 清楚 地 看 出 3 个 种 类 的 范围 ， 虽 然 有 一 点 重合 ， 并 不 完美 , 但 总 体 来 说 已 经 很 不 
错 了 。 

















练习 


回忆 一 下 explaineq_variance_ratio， 实 际 上 我 们 用 一 个 维度 就 捕获 了 大 部 分 方差 。 或 
许 竟 尾 花 的 整体 大 小 就 是 决定 其 种 类 的 最 重要 因素 ， 你 用 一 个 特征 就 可 以 表示 它 。 所 以 ， 如 果 可 
以 的 话 ， 去 修改 一 下 上 面 的 结果 ， 看 看 能 不 能 避 开 二 维 数据 ， 或 是 将 二 维 降低 到 一 维 。 将 
n_components 改 为 1， 看 看 能 得 到 什么 样 的 方差 比 。 

结果 如 何 ? 有 意义 吗 ? 请 练习 一 下 ， 并 熟悉 PCA 的 做 法 。 这 就 是 数据 降 维 、 主 成 分 分 析 和 
奇异 值 分 解 的 实战 。 它 们 都 是 非常 非常 高 级 的 名 词 ， 其 方法 底层 的 数学 知识 也 很 高 级 , 但 如 你 所 
见 ， 使 用 scikit-learn 可 以 非常 容易 地 实现 这 种 强大 的 技术 。 所 以 ， 一定 要 掌握 它 。 
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就 是 这 样 ! 一 个 包含 词尾 花 信 息 的 四 维 数据 集 降 低 到 二 维 , 会 使 得 我 们 既 可 以 轻松 地 进行 可 
视 化 ， 又 能 够 清楚 地 看 到 分 类 之 间 的 界限 。PCA 在 这 个 例子 中 表现 得 非常 好 。 再 说 一 遍 ，PCA 
是 一 种 非常 有 用 的 工具 ， 可 以 用 于 压缩 、 特 征 提取 或 面部 识别 。 所 以 一 定 要 掌握 它 。 





























7.5 数据 仓库 简介 


下 面 简单 地 介绍 一 下 数据 仓库 。 由 于 Hadoop、 大 数据 技术 和 云 计算 的 出 现 ， 数 据 仓库 领域 
已 经 被 完全 黄 覆 。 这 个 领域 现在 充斥 着 大 量 乱 七 八 炎 的 名 词 ,但 其 中 的 重要 概念 是 你 需要 理解 的 。 


我 们 来 介绍 一 下 这 些 概念 ， 其 中 主要 介绍 ELT 和 ETL， 以 及 数据 仓库 。 与 具体 实用 的 技术 
相 比 ， 数 据 仓库 更 像 是 一 个 概念 ， 所 以 我 们 只 做 概念 上 的 介绍 。 但 是 ,在 工作 面试 中 很 可 能 会 出 
现 这 些 名 词 ， 因 此 你 应 该 确保 自己 理解 这 些 概念 。 


我 们 从 通常 意义 上 的 数据 仓库 开始 。 什么 是 数据 仓库 ?一般 来 说 , 数据 仓库 就 是 个 巨大 的 数 
据 库 ， 它 包含 来 自 各 种 不 同 数据 源 的 信息 ,并 把 它们 连接 在 一 起 。 例 如 ， 如 果 你 在 一 个 大 商业 公 
司 工作 ， 那 这 个 公司 就 可 能 通过 订单 系统 将 顾客 购买 信息 注入 到 数据 仓库 中 。 


你 可 能 还 会 有 需要 放 到 数据 仓库 中 的 来 自 于 Web 服务 器 的 日 志 信息 。 你 可 以 将 网 站 浏览 信 
息 与 顾客 最 终 订单 联系 起 来 , 还 可 以 接 入 来自 于 客户 服务 系统 的 数据 , 度量 一 下 浏览 行为 与 顾客 
满意 度 之 间 是 否 存 在 联系 。 


数据 仓库 的 挑战 在 于 ， 它 需要 处 理 来 自 于 很 多 不 同 数据 源 的 数据 ， 将 它们 转换 成 某 种 模式 ， 
让 我 们 能 够 同时 查询 这 些 不 同 的 数据 源 ， 并 通过 数据 分 析 获 取 洞 察 。 所 以 , 通常 是 大 公司 或 组 织 
有 具有 数据 仓库 。 我们 再 介绍 一 下 大 数据 的 概念 。 例如, 你 有 一 个 巨大 的 Oracle 数据 库 , 它 包含 了 
组 织 的 所 有 信息 ， 这 些 信息 按照 某 种 方式 进行 了 划分 ， 并 可 以 复制 ， 其 中 有 各 种 各 样 的 复杂 性 。 
你 可 以 通过 结构 化 查询 语言 (SQL ) 查询 数据 库 ， 也 可 以 通过 图 形 化 界面 ( 比如 最 近 很 流行 的 
Tableau ) 来 查询 。 这 就 是 数据 分 析 师 的 工作 ， 他 们 使 用 像 Tableau 这 样 的 工具 查询 大 数据 库 。 


这 就 是 数据 科学 家 与 数据 分 析 师 之 间 的 区 别 。 数据 科学 家 要 写 代码 ,以 便 在 数据 上 运行 各 种 
高 级 的 方法 ， 类 似 于 人 工 智 能 。 而 数据 分 析 师 的 工作 是 使 用 工具 从 数据 仓库 中 提取 图 像 和 关系 。 
在 Amazon， 有 一 个 完整 的 数据 仓库 部 门 整 天 做 这 种 事 ， 他 们 的 人 手 总 是 不 够 ,我 可 以 告诉 你 ， 
这 工作 相当 不 错 ! 


数据 仓库 中 有 很 多 难题 ， 其 中 之 一 就 是 数据 标准 化 。 你 必须 清楚 这 些 问 题 : 在 不 同 的 数据 源 
中 所 有 字段 是 如 何 关 联 的 ?你 能 否 确定 一 个 数据 源 中 的 一 列 可 以 和 男 一 个 数据 源 中 的 一 列 相 比 
较 ， 而 且 有 同样 的 数据 、 同 样 的 规模 ,并 使 用 同样 的 术语 ?” 如何 处 理 缺 失 数据 ?如 何 处 理 损坏 数 
据 、 异 常数 据 或 是 来 自 于 机 右 人 的 数据 ?这些 都 是 非常 大 的 挑战 , 维护 这 些 数据 来 源 也 是 一 个 非 
常 大 的 问题 。 
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当 你 向 数据 仓库 中 导 和 来自 不 同 数据 源 的 信息 时 , 会 出 现 很 多 问题 , 特别 是 对 于 那些 来 自 于 
Web 日 志 的 原始 数据 , 它们 需要 做 大 量 的 转换 , 保存 到 结构 化 的 数据 库 表格 后 才能 导入 数据 仓库 
中 。 在 管理 庞大 的 数据 仓库 时 ， 如 何 扩展 也 是 个 难题 。 最 终 ， 数 据 会 变 得 特别 大 ， 使 得 数据 转换 
都 成 为 问题 。 这 就 会 涉及 ETL 和 ELT 的 话题 。 





ETL 与 ELT 
下 面 先 介绍 ETL。 什 么 是 ETL? 它 表 示 抽 取 、 转 换 和 加 载 ， 它 是 使 用 数据 仓库 的 传统 方式 。 


一 般 情 况 下 ， 你 首先 要 从 操作 系统 中 提取 出 所 需 数据 。 例 如 ， 我 会 每 天 从 Web 服务 器 中 提 
取 所 有 Web 日 志 。 然 后 ， 我 们 需要 将 这 些 信息 转换 为 能 够 导入 到 数据 仓库 中 的 结构 化 的 数据 库 
表格 。 


在 转换 阶段 ， 我 们 会 处 理 Web 服务 器 日 志文 件 的 每 一 行 ， 将 其 转换 成 表格 数据 。 我 们 会 从 
每 一 行 日 志 中 提取 会 话 ID 、 访 问 网 页 、 访 问 时 间 、 来 源 链接 等 信息 ， 然 后 将 它们 组 织 成 表格 结 
构 ， 以 便 随后 可 以 像 真实 的 数据 库 表格 一 样 加 载 到 数据 仓库 中 。 当 数据 量变 得 越 来 越 大 时 ， 这 个 
转换 步骤 就 会 成 为 一 个 实际 的 问题 。 思 考 一 下 ， 像 Google、Amazon 处 理 所 有 
Web 日 志 并 将 其 转换 为 数据 库 可 以 读 取 形 式 的 工作 量 会 有 多 大 。 数据 转换 本 身 就 是 一 个 扩展 性 难 
题 ， 而 且 在 整个 数据 仓库 工作 流 中 还 会 带 来 很 多 稳定 性 问题 。 


这 就 是 引入 ELT 概念 的 原因 ， 它 是 一 种 比较 彻底 的 改变 。 它 的 想法 是 :“ 好 吧 ， 为 什么 一 
要 使 用 巨大 的 Oracle 实例 ?为 什么 不 使 用 一 些 新 技术 ， 比如 建立 在 让 Hadoop 集群 上 的 分 ) 式 数据 
库 , 这 样 就 可 以 发 挥 像 Hive、Spark 或 MapReduce 这 样 的 分 布 式 数 据 库 的 威力 , 在 数据 加 载 之 后 
进行 转换 了 。” 

ELT 的 理念 是 ， 像 以 往 一 样 提取 所 需 数 据 ， 比 如 从 一 组 Web 服务 器 日 志文 件 中 提取 数据 。 
然后 直接 将 数据 加 载 到 数据 仓库 中 ， 再 使 用 数据 仓库 本 身 的 能 力 原 地 进行 数据 转换 。 所 以 ， 
ELT 不 进行 离线 的 处 理 〈 比如 将 Web 日 志 转 换 为 结构 化 形式 )， 而 是 将 它们 以 原始 文本 文件 的 形 
式 读 和 人， 然后 再 使 用 像 Hadoop 这 样 的 系统 逐 行 处 理 ， 将 其 转换 为 更 加 结构 化 的 形式 ， 使 得 我 们 
可 以 在 整个 数据 仓库 系统 的 层次 上 进行 查询 。 


像 Hive 这 样 的 系统 可 以 让 我 们 将 大 规模 数据 库 安装 在 Hadoop 集群 上 。Spark SQL 可 以 让 我 
SQL 一 样 来 查询 分 布 在 Hadoop 集群 上 的 数据 仓库 。 现 在 还 有 分 布 式 的 NoSQL 数据 存储 方 

式 , 可 以 使 用 Spark 和 MapReduce 进行 查询 。 这些 系 统 的 理念 是 , 不 使 用 单一 数据 库 作 为 数据 仓 
库 ,而 是 使 用 建立 在 Hadoop 或 某 种 集群 上 的 系统 , 这 样 不 仅 可 以 扩展 对 数据 的 处 理 和 查询 能 力 ， 
还 可 以 扩展 数据 转换 能 


同样 , 你 要 先 提取 原始 数据 , 然后 将 其 加 载 到 数据 仓库 系统 中 。 在 此 之 后 , 使 用 数据 仓库 ( 可 
能 建立 在 Hadoop 上 ) 的 功能 进行 数据 转换 ， 以 此 作为 第 三 个 步骤 。 这 之 后 就 可 以 进行 数据 查询 
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了 。 数 据 仓库 是 个 非常 大 的 项 目 ， 包 括 很 多 内 容 ， 它 有 一 整套 自己 的 规则 。 本 书 很 快 就 会 讲 到 
Spark， 它 是 实现 数据 仓库 的 一 种 方式 ， 尤 其 是 它 支 持 Spark SQL， 这 非常 重要 。 


本 节 的 中 心思 想 是 ， 如 果 你 从 单一 数据 库 〈 比如 Oracle 或 MySQL ) 转移 到 某 种 更 加 现代 的 
建立 在 Hadoop 之 上 的 分 布 式 数据 库 ， 那 么 就 可 以 在 加 载 完 原始 数据 之 后 再 进行 数据 转换 ， 这 
和 以 前 是 不 同 的 。 这 种 方式 更 简单 ， 也 更 容易 扩展 ,而 且 可 以 充分 利用 现 有 的 大 规模 计算 集群 的 
能 力 。 


这 就 是 ETL 与 ELT， 传统 的 实现 方式 是 使 用 基于 云 计算 的 大 规模 集群 系统 ， 而 这 种 概念 在 
当今 更 有 意义 ， 因 为 我 们 确实 具有 了 能 转换 大 型 数据 集 的 云 计算 能 力 。 


ETL 是 一 种 传统 方法 , 它 需 要 先 对 数据 进行 转换 , 然后 再 将 数据 导入 并 加 载 到 大 型 数据 仓库 
或 单一 数据 库 中 。 但 是 ， 通 过 当今 的 技术 和 基于 云 的 数据 库 ， 比 如 Hadoop、Hive、Spark 以 及 
MapReduce， 你 可 以 将 原始 数据 加 载 到 数据 仓库 之 后 再 进行 转换 ， 这 样 更 有 效率 ， 也 更 能 利用 集 
群 的 能 

这 是 一 个 充满 变化 的 领域 ,了 解 它 是 非常 重要 的 。 对 于 这 个 主题 , 需要 学 习 的 还 有 很 多 ， 所 
以 我 鼓励 你 对 这 部 分 内 容 再 更 多 地 探索 一 下 。 本 节 介 绍 了 基本 的 概念 ， 因 此 ， 当 人 们 说 起 ETL 
和 ELT 时， 你 应 该 知道 他 们 说 的 是 什么 了 。 

























































































7.6 强化 学 习 

下 一 个 话题 非常 有 意思 : 强化 学 习 。 我 们 以 吃 豆 游戏 为 例 来 说 明 强 化 学 习 的 理念 。 我 们 将 创 
建 一 个 简单 的 智能 吃 豆 代 理 , 它 可 以 自动 完成 吃 豆 游戏 。 建 立 这 个 智能 吃 豆 代理 的 技术 简单 得 令 
人 吃惊 ， 下 面 来 看 一 下 。 


强化 学 习 背 后 的 理念 就 是 建立 一 个 代理 〈 在 这 个 例子 中 就 是 吃 豆 人 )， 探 索 某 个 区 域 ( 吃 豆 
人 所 在 的 迷宫 )， 在 探索 过 程 中 ， 代 理 不 断 学 习 随 情况 变化 的 状态 值 。 





























举例 来 说 , 在 上 面 的 图 片 中 , 吃 豆 人 的 当前 状态 可 以 被 定义 为 南面 有 幽灵 ， 西 面 有 墙 , 北面 
和 东 面 是 空地 。 当 它 向 某 个 方向 移动 时 , 状态 就 会 改变 。 我 们 可 以 学 习 它 向 某 个 方向 移动 后 的 值 。 
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例如 ， 如 果 它 向 北 移动 , 那 什么 都 不 会 发 生 ， 也 不 会 得 到 任何 奖励 。 但 如 果 向 南 移动 ， 就 会 被 幽 
灵 吃 掉 ， 得 到 一 个 负 分 。 


如 果 我 们 探索 了 整个 区 域 , 就 可 以 建立 一 个 包括 吃 豆 人 所 有 可 能 状态 的 集合 ,以 及 在 那些 状 
态 下 向 某 个 方向 移动 后 所 得 的 值 。 这 就 是 强化 学 习 。 在 探索 整个 区 域 的 时 候 , 代理 会 修正 某 个 给 
定 状 态 的 奖励 值 , 它 可 以 使 用 这 些 保存 下 来 的 奖励 值 来 选择 当前 情况 下 的 最 优 决 策 。 除了 吃 豆 游 
戏 ， 还 有 一 个 叫 作 猪 和 老鼠 的 游戏 也 是 使 用 强化 学 习 的 一 个 例子 。 

这 种 技术 的 优点 是 , 一 旦 你 探索 过 了 代理 的 所 有 可 能 状态 , 那么 在 进行 另 一 轮 探索 时 , 会 表 
现 得 非常 好 。 所 以 , 你 可 以 通过 强化 学 习 建 立 一 个 智能 吃 豆 代 理 , 让 它 探索 在 不 同 状态 下 不 同 决 
策 的 值 ， 并 把 结果 保存 下 来 ， 这 样 就 可 以 在 处 于 未 知 条 件 下 的 某 个 状态 时 快速 做 出 正确 决策 。 






















































































7.6.1 Q-learning 
强化 学 习 的 一 种 特殊 应 用 称 为 Q-learning， 我 们 使 用 Q-learning 将 吃 豆 游戏 表述 得 更 正式 


一 些 。 


口 同样 ， 要 从 代理 的 一 组 环境 状态 〈 附近 有 幽灵 吗 ” 前 面 有 大 力 丸 吗 ” 等 等 ) 开始 ， 我 们 
称 其 为 5。 

D 我 们 还 有 一 组 在 这 些 状 态 下 能 够 使 用 的 动作 ， 称 为 动作 集合 a。 在 吃 豆 游戏 中 ，, 能够 使 用 
的 动作 是 向 上 、 向 下 、 向 左 和 向 右 。 

口 这 样 ， 对 每 一 个 状态 /动作 组 合 ， 都 可 以 得 到 一 个 值 ， 称 其 为 0， 这 就 是 Q-learning 的 由 
来 。 所 以 ， 对 每 个 状态 ( 吃 豆 人 周围 的 条 件 集合 )， 每 个 动作 都 会 产生 一 个 2 值 。 例 如 ， 
向 上 移动 可 能 得 到 某 个 CO 值 ， 向 下 移动 如 果 磁 到 幽灵 的 话 ， 则 可 能 得 到 某 个 负 的 CO 值 。 


我 们 从 吃 豆 人 0 值 为 0 的 一 个 可 能 状态 开始 。 在 吃 豆 人 探索 迷宫 的 过 程 中 , 如 果 出 现 了 不 利 
情况 ， 就 减 去 吃 豆 人 当前 状态 的 2 值 。 所 以 ， 如 果 吃 豆 人 被 幽灵 吃 掉 ， 不 管 它 在 当前 状态 采取 
了 什么 动作 ,都 要 受到 惩罚 。 如 果 出 现 了 有 利 情况 ， 比 如 它 吃 了 大 力 丸 ， 或 者 吃 掉 了 幽灵 ,那么 
就 要 给 它 加 上 当前 状态 下 相应 动作 的 2 值 。 然 后 ， 我 们 要 做 的 是 ， 使 用 2 值 确定 吃 豆 人 下 一 步 
的 选择 ， 以 及 建立 一 个 简单 的 能 执行 最 优 操作 的 智能 代理 , 来 完美 地 完成 这 个 吃 豆 游戏 。 根 据 前 
面 的 吃 豆 游戏 图 片 ， 可 以 进一步 定义 吃 豆 人 的 当前 状态 ， 即 西 面 有 墙 、 北 面 和 东 面 是 空地 ,南面 
是 幽灵 。 


可 以 检查 一 下 吃 豆 人 可 能 采取 的 动作 : 它 根 本 不 可 能 向 左 ,但 可 以 向 上 、 向 下 或 向 右 移动 ， 
我 们 为 每 个 动作 赋 一 个 值 。 向 上 或 向 右 时 ， 什 么 都 不 会 发 生 ， 既 没有 大 力 丸 ， 也 没有 能 吃 的 豆 。 
但 如 果 它 向 下 , 显然 会 得 到 一 个 负 值 。 我 们 完全 可 以 说 , 在 当前 状态 下 , 根据 吃 豆 人 周围 的 形势 ， 
向 下 肯定 是 个 糟糕 的 选择 ， 它 会 得 到 一 个 负 的 2 值 。 向 左 根本 不 可 能 ， 向 上 、 向 右 或 是 原 地 不 
动 ， 对 于 给 定 状态 的 这 些 操作 ，2 值 将 保持 为 0。 


还 可 以 看 得 更 远 一 点 ,建立 更 加 智能 的 代理 。 我 们 实际 上 离 吃 到 大 力 丸 只 有 两 步 。 所以, 吃 
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豆 人 在 探索 这 个 状态 时 , 如 果 遇 到 在 下 一 个 状态 能 够 吃 到 大 力 九 的 情况 , 就 应 该 把 这 个 因素 体现 
在 上 一 个 状态 的 2 值 中 。 如 果 基 于 距离 和 步 数 设 定 一 个 折扣 因子 ， 就 可 以 把 两 个 状态 的 因素 组 
合 起 来 。 这 就 是 在 系统 中 加 入 记忆 能 力 的 方法 。 在 计算 2 值 时 (s 表示 前 一 个 状态 ,ss 表示 当前 
状态 )， 通 过 使 用 折扣 因子 可 以 “看 得 更 远 一 点 儿 ”， 不 仅仅 只 考虑 一 步 。 


O(s, a) += discount x (reward(s, a) + max(O(s")) — QO(s, a)) 


于 是 ,在 吃 到 大 力 丸 时 获得 的 2 值 会 对 前 一 个 状态 的 2 值 起 到 提升 的 作用 ， 这 是 提高 
Q-learning 效果 的 一 种 方法 。 


























7.6.2 ”探索 问题 

强化 学 习 中 的 一 个 问题 就 是 探索 问题 。 在 探索 过 程 中 , 如 何 才能 有 效 地 覆盖 所 有 状态 和 状态 
下 的 动作 呢 ? 

1. 简单 方法 

一 种 简单 的 方法 是 ， 对 于 一 个 给 定 的 状态 ， 总 选择 能 使 2 值 最 大 的 那个 动作 ， 如 果 有 多 个 
同样 的 2 值 ， 就 随机 选择 。 初 始 的 2 值 都 是 0， 所 以 开始 就 随机 地 选择 一 个 动作 。 


在 对 给 定 状态 下 哪些 动作 能 获得 更 好 的 2 值 有 了 一 些 了 解 之 后 ， 就 要 利用 这 些 信 息 。 但 是 ， 
这 样 做 的 效率 不 高 ， 而 且 如 果 总 是 选择 能 获得 最 大 2 值 的 动作 ， 那 么 就 太 机 械 了 ， 会 丢掉 很 多 
路 径 。 


2. 更 好 的 方法 


更 好 的 方法 是 探索 时 在 动作 中 引用 一 些 随机 变动 ， 称 之 为 项。 假设 有 一 些 可 以 选择 的 值 ， 
这 时 我 们 会 扔 骨 子 , 得 到 一 个 随机 数 。 如 果 随 机 数 小 于 s 的 值 ， 就 不 遵循 值 最 大 原则 ,不 按 常 
理 出 牌 ， 而 是 随机 地 选择 一 个 路 径 ， 看 看 会 发 生 什么 。 这 种 方法 可 以 让 探索 具有 更 大 范围 的 可 能 
性 ， 采 用 更 多 的 动作 ， 达 到 更 多 状态 ， 从 而 更 有 效率 。 


上 面 的 做 法 可 以 用 非常 时 淫 的 数学 名 词 来 描述 ， 但 它 的 概念 非常 简单 。 



















































































7.6.3 ”时 晓 名 词 


对 于 一 个 给 定 的 状态 集合 ， 我 们 要 对 在 这 些 状态 下 能 够 采用 的 动作 进行 探索 ， 并 确定 特定 
特定 动作 能 获得 的 奖励 。 探 索 完 毕 后 ， 要 使 用 这 些 信息 〈 也 就 是 2 值 ) 智能 地 探索 新 的 














状态 下 
迷宫 。 





这 个 过 程 也 称 为 马尔 可 夫 决 策 过 程 。 又 是 这 样 , 很 多 数据 科学 家 喜欢 给 简单 的 概念 赋予 一 个 
既 时 瞩 又 喀 人 的 名 词 ， 在 强化 学 习 领 域 , 这 种 名 词 屡见不鲜 。 
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1. 马尔 可 夫 决 策 过 程 


如 果 你 看 一 下 马尔 可 夫 决 策 过 程 的 定义 ， 就 会 知道 它 是 “一 种 用 于 决策 建 模 的 数学 框架 , 适 
合 于 结果 部 分 随机 、 部 分 由 决策 者 控制 的 情况 ”。 


D 决策 : 在 给 定 一 组 特定 状态 的 概率 的 情况 下 ， 应 该 采取 什么 动作 ? 
口 结果 部 分 随机 的 情况 : 就 像 我 们 的 随机 探索 过 程 一 样 。 
口 部 分 由 决策 者 控制 : 决策 者 就 是 我 们 计算 出 的 2 值 。 


所 以 , MDP ( 马尔 可 夫 决 策 过 程 的 缩写 ) 是 刚刚 描述 过 的 强化 学 习 探 索 算 法 的 时 襄 名 称 。 甚 
至 它们 的 表述 方法 都 差不多 ， 状 态 还 是 用 s 表示， 下 一 个 状态 是 s'。 对 于 特定 的 状态 s 和 s'， 有 
一 个 状态 转换 函数 P,。 对 于 0 值 ，MDP 用 奖励 函数 来 表示 ， 特 定 状态 s 和 s 的 奖励 函数 为 Re。 
从 一 个 状态 转换 到 男 一 个 状态 会 有 奖励 ， 从 一 个 状态 到 男 一 个 状态 的 转换 是 由 状态 转换 函数 定义 的 。 


口 状态 还 是 用 s 和 s' 表 示 。 
口 状态 转换 函数 是 Pi(s, s)。 
口 0O 值 用 奖励 函数 R,(s, s) 表 示 。 


再 说 一 壳 ,， 马尔 可 夫 决 策 过 程 只 是 一 种 数学 表示 方法 , 是 描述 上 面 做 法 的 一 种 听 起 来 很 时 蓝 
的 名 词 。 如 果 你 想 听 起 来 更 有 知识 含量 一 些 , 可 以 使 用 马尔 可 夫 决 策 过 程 的 另 一 个 名 称 : 离散 时 
间 随 机 控制 过 程 。 这 样 是 不 是 显得 你 很 聪明 ? 但 它 的 概念 和 我 们 刚刚 描述 过 的 是 同一 回 事 。 


2. 动态 规划 


有 一 个 更 加 时 瞩 的 名 词 也 可 以 用 来 描述 我 们 的 做 法 : 动态 规划 。 这 听 起 来 就 像 是 人 工 智能 、 
电脑 自 编程 、 终 结 者 2、 天 网 之 类 的 东西 。 其 实 不 是 ， 它 就 是 我 们 刚才 做 过 的 东西 。 如 果 你 查看 
一 下 动态 规划 的 定义 , 就 会 知道 它 是 解决 复杂 问题 的 一 种 方法 , 其 将 复杂 问题 分 解 为 一 系列 简单 
的 子 问 题 , 然后 使 用 基于 内 存 的 数据 结构 , 对 每 个 子 问题 只 求解 一 次 , 并 把 它们 的 解 都 保存 下 来 。 


当 同 样 的 子 问题 再 次 出 现时 ,动态 规划 并 不 重新 求解 ， 而 是 简单 地 在 前 面 的 解 中 查找 ,这 样 
可 以 节省 大 量 计算 时 间 ， 付 出 的 代价 是 需要 一 定 的 存储 空间 。 


D 解决 复杂 问题 的 一 种 方法 : 比如 建立 一 个 智能 吃 豆 代理 ， 这 个 问题 相当 复杂 。 

D 将 复杂 问题 分 解 为 一 系列 简单 的 子 问题 : 例如 ， 对 于 吃 豆 人 的 一 个 可 能 状态 ， 它 能 采取 
的 最 优 动 作 是 什么 ? 吃 豆 人 会 处 于 很 多 不 同 的 状态 ， 每 种 状态 都 可 以 表示 为 一 个 简单 的 
子 问题 ， 子 问题 中 的 选择 非常 有 限 ， 而 且 最 优 移动 方向 只 有 一 个 正确 答案 。 

口 保存 子 问题 的 解 : 这 些 解 就 是 每 个 状态 下 每 个 可 能 动作 的 2 值 。 












































































































































































































































口 使 用 基于 内 存 的 数据 结构 : 显然 ， 要 把 2 值 保存 下 来 ， 并 与 状态 关联 起 来 。 
口 同样 的 子 问题 再 次 出 现 : 在 下 一 次 探索 中 ， 吃 豆 人 会 处 于 某 个 状态 ， 这 个 状态 的 2 值 我 
们 已 经 知道 了 。 





口 不 重新 求解 , 而 是 简单 地 在 前 面 的 解 中 查找 : 根据 前 面 的 探索 过 程 , 我 们 已 经 知道 了 CO 值 。 
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口 可 以 节省 大 量 计算 时 间 ， 付 出 的 代价 是 需要 一 定 的 存储 空间 : 这 正 是 使 用 强化 学 习 所 做 
的 事情 。 


我 们 有 一 个 非常 复杂 的 探索 阶段 , 需要 找到 与 某 个 状态 下 每 个 动作 相关 的 最 优 奖 励 。 一 旦 有 
了 某 个 状态 下 正确 动作 的 表格 , 在 一 个 未 知 的 全 新 迷宫 中 , 就 可 以 通过 表格 快速 做 出 决策 ,使 吃 
豆 人 以 最 优 方 式 移 动 。 所 以 ， 强 化 学 习 也 是 一 种 动态 规划 。 


概括 一 下 , 我 们 可 以 建立 一 个 智能 吃 豆 代 理 , 它 可 以 半 随 机 化 地 进行 探索 ,在 不 同 条 件 下 选 
择 不 同 的 移动 方式 。 这 些 选择 就 是 动作 ,条 件 就 是 状态 。 在 探索 过 程 中 , 要 跟踪 记录 与 每 个 动作 
或 状态 相关 的 奖励 和 惩罚 。 如 果 想 取得 更 好 的 效果 , 还 可 以 将 后 面 几 步 的 奖励 和 惩罚 折算 到 当前 。 


然后 ， 将 得 到 的 与 每 个 状态 相关 的 2 值 保存 起 来 ， 可 以 使 用 它们 确定 未 来 的 选择 。 我 们 进 
入 一 个 全 新 的 迷宫 , 非常 智能 的 吃 豆 代 理 可 以 避 开 幽灵 并 把 它们 快速 吃 掉 ,， 完全 自动 化 。 概 念 相 
当 简单 ， 威 力 却 非常 强大 。 你 还 了 解 了 一 大 堆 新 名 词 ， 不 过 它们 说 的 都 是 同一 件 事 。Q-learning、 
强化 学 习 、 马 尔 可 夫 决 策 过 程 、 动 态 规 划 : 都 是 一 个 概念 。 


通过 这 样 简单 的 技术 , 建立 一 个 人 工 智 能 吃 豆 人 , 而 且 确 实 有 效 , 这 真是 一 件 非常 棒 的 事情 ! 
如 果 你 想 更 加 详细 地 了 解 一 下 这 个 事情 ， 可 以 看 看 下 面 的 几 个 例子 , 还 有 一 份 源 代码 ， 也 可 以 动 
手 试 一 下 。 参 见 Python Markov Decision Process Toolbox。 


这 是 一 个 Python 马尔 可 夫 决 策 过 程 工具 箱 ， 它 包括 了 我 们 讨论 过 的 所 有 方法 ， 其 中 还 有 一 
个 例子 可 以 供 你 参考 ， 这 个 例子 是 关于 猫 和 老鼠 游戏 的 ， 和 吃 豆 游 戏 很 相似 ,能够 实际 运行 。 网 
上 确实 也 有 吃 豆 游戏 的 例子 , 你 可 以 看 一 下 ， 它 和 我 们 介绍 的 内 容 联系 得 更 加 紧密 。 研 究 一 下 这 
些 链 接 ， 你 可 以 学 到 更 多 知识 。 


这 就 是 强化 学 习 。 总 体 而 言 ， 它 是 一 门 非常 有 用 的 技术 ,可 以 建立 一 个 代理 ,在 一 个 包含 各 
种 可 能 出 现 的 状态 , 每 个 状态 都 有 一 个 动作 集合 的 状态 集合 中 找 出 一 条 路 径 。 所 以 , 我 们 主要 通 
过 迷宫 游戏 来 介绍 强化 学 习 。 但 你 的 思路 可 以 更 开阔 一 些 , 只 要 需要 在 给 定 当前 条 件 和 动作 集合 
的 情况 下 预测 某 种 行为 , 强化 学 习 和 Q-learning 都 可 以 发 挥 作用 。 所 以 , 请 把 这 种 方法 说 记 于 心 。 


























































































































7.7 “小结 


本 音 先 介绍 了 最 简单 的 机 器 学 习 技术 之 一 ， 即 最 近邻 ， 还 使 用 KNN 实现 了 一 个 例子 ， 预 
测 电影 评分 。 然 后 分 析 了 数据 降 维和 主 成 分 分 析 的 概念 ， 并 介绍 了 一 个 使 用 PCA 的 例子 , 将 四 
维 数据 降低 到 二 维 ， 同 时 保留 了 大 部 分 方差 。 

接 下 来 本 章 学 习 了 数据 仓库 的 概念 , 并 解释 了 为 什么 ELT 相 比 于 ETL 在 当今 世界 更 有 意义 。 


之 后 简单 介绍 了 强化 学 习 的 概念 , 并 展示 了 它 在 吃 豆 游戏 中 的 应 用 。 最 后 介绍 了 强化 学 习 中 使 用 
的 一 些 时 比 名 词 ( Q-learning、 马尔 可 夫 决 策 过 程 和 动态 规划 )。 下 一 章 将 介绍 如 何 处 理 真实 数据 。 



































第 8 章 


处 理 真实 数据 








本 章 将 讨论 处 理 真 实数 据 这 个 难题 ， 以 及 你 可 能 遇 到 的 一 些 诡异 问题 。 首 先 讨 论 偏差 -方差 
权衡 ， 以 及 二 者 是 如 何 互相 影响 的 ， 偏 差 -方差 权衡 是 对 数据 处 理 中 过 拟 合 和 入 拟 合 问题 的 一 种 
更 加 原则 性 的 表述 。 然 后 介绍 磊 折 交叉 验证 技术 ,这 是 克服 过 拟 合 的 一 种 非常 重要 的 方法 ， 同 时 
会 介绍 如 何 使 用 Python 实现 磊 折 交叉 验证 。 


接 下 来 会 分 析 在 对 数据 应 用 算法 之 前 对 其 进行 清理 和 标准 化 的 重要 性 。 我 们 会 用 一 个 确定 网 
站 最 受 欢迎 页 面 的 例子 来 说 明 数据 清理 的 重要 性 。 本 章 还 会 介绍 对 数值 型 数据 进行 标准 化 的 重要 
性 。 最 后 会 介绍 如 何 检测 和 处 理 异 常 值 。 


本 章 将 介绍 以 下 内 容 : 


口 分 析 偏 差 -方差 权衡 ; 

口 磊 折 交 叉 验 证 的 概念 和 实现 ; 
口 数据 清理 和 标准 化 的 重要 性 ; 
口 一 个 确定 网 站 最 受 欢 迎 页 面 的 例子 ; 
口 数值 型 数据 的 标准 化 ; 

口 异常 值 检测 与 处 理 。 


8.1 偏差 一 方差 权衡 

在 处 理 真实 数据 时 , 我 们 面临 的 一 个 基本 问题 就 是 在 对 数据 进行 回归 、 建 模 或 预测 时 会 出 现 
过 拟 合 或 欠 拟 合 。 在 介绍 过 拟 合 和 欠 拟 合 时 ， 通 常会 涉及 偏差 、 方 差 以 及 偏差 -方差 权衡 ， 下 面 
就 来 介绍 一 下 它们 的 意义 。 

概念 上 ,偏差 和 方差 都 非常 简单 。 偏 差 表 示 的 是 离 正 确 值 有 多 远 , 也 就 是 预测 的 整体 效果 有 
多 好 。 如果 你 计算 一 下 预测 的 均值 , 它 比 正确 值 大 还 是 小 ” 你 的 误差 是 不 是 都 向 某 个 方向 偏离 ? 
如 果 是 ,那么 你 的 预测 就 存在 某 个 方向 上 的 偏差 。 


方差 则 表示 预测 的 分 散 程度 。 如 果 你 的 预测 非常 分 散 , 那么 就 具有 高 方差 。 但是， 如 果 它 们 
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非常 紧密 地 集中 在 正确 值 附近 ， 甚 至 是 集中 在 错误 值 附近 ( 如 果 存 在 高 偏差 的 话 )， 那 么 方差 就 
非常 小 。 


来 看 儿 个 例子 。 假 设 下 面 4 个 靶子 表示 我 们 做 的 几 个 预测 ， 要 预测 的 真实 值 就 是 靶 心 。 




















口 先 从 左上 角 的 靶子 开始 ， 可 以 看 到 靶 上 的 点 分 散在 靶 心 周围 。 从 整体 上 说 ， 这 些 点 的 均 
值 应 该 和 真实 值 差 不 多 。 预 测 的 偏差 很 小 ， 因 为 预测 值 比较 均匀 地 分 布 在 真实 值 周围 。 
然而 ， 它 的 方差 非常 大 ， 因 为 这 些 预 测 值 相当 分 散 。 所 以 ， 这 是 个 低 偏 差 高 方差 的 例子 。 

口 再 来 看 右上 和 角 的 靶子 ， 可 以 看 出 所 有 的 点 都 一 致 向 西北 方向 偏离 了 真实 值 。 所 以 ， 这 是 
个 高 偏差 预测 的 例子 ， 所 有 预测 值 都 出 现 了 某 种 程度 的 偏差 。 它 的 方差 非常 小 ， 因 为 所 
有 点 都 紧密 育 集 在 一 个 错误 值 附近 ， 足 够 紧密 ， 所 以 这 个 预测 还 是 具有 一 致 性 的 。 它 的 
方差 很 小 ,但 偏差 很 大 。 这 就 是 高 偏差 低 方 差 。 

口 在 左下 角 的 靶子 上 ， 可 以 看 到 预测 分 散在 一 个 错误 点 周围 。 所 以 ， 我们 有 高 偏差 ， 也 就 
是 所 有 预测 都 偏离 了 真实 值 。 同 时 ,方差 也 很 高 。 因 此 ， 它 是 最 糟糕 的 预测 。 这 是 高 偏 
差 高 方差 的 例子 。 

口 最 后 是 个 非常 完美 的 结果 。 在 右 下 角 的 靶子 中 ， 偏 差 很 小 ， 所 有 预测 都 与 真实 值 非常 接 
近 ， 同 时 方差 也 很 小 ， 所 有 预测 都 非常 紧密 地 聚集 在 真实 值 周 围 。 所 以 ， 这 是 你 能 得 到 
的 最 好 结果 。 


在 实际 工作 中 , 你 经 常 需要 在 偏差 和 方差 之 间 选 择 。 这 个 问题 来 自 于 对 数据 的 过 拟 合 与 欠 拟 
合 。 来 看 下 面 的 例子 。 
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这 是 考虑 偏差 和 方差 的 男 外 一 种 方式 。 在 左边 的 图 中 有 一 条 直线 , 你 可 以 认为 相对 于 那些 观 
测 来 说 , 它 的 方差 很 小 。 因为 直线 上 没有 什么 异动 , 所 以 方差 很 小 。 但 直线 与 每 个 点 之 间 的 误差 ， 
也 就 是 偏差 ， 真 的 很 高 。 

相 比 之 下 ， 右 边 的 图 中 则 存在 对 数据 的 过 拟 合 ， 即 对 观测 的 拟 合 有 些 过 分 了。 折线 的 方差 
很 大 , 偏差 很 小 ， 因 为 折线 上 的 每 个 点 都 非常 接近 真实 值 。 在 这 个 例子 中 ,我 们 为 了 偏差 牺牲 了 
方差 。 

说 到 底 , 我 们 的 目的 不 是 减 小 偏差 ,也 不 是 减 小 方差 ， 而 是 减 小 误差 。 这 才 是 最 重要 的 。 误 
差 可 以 表示 为 偏差 和 方差 的 函数 。 





















































误差 = 偏差 “+ 方差 


由 公式 可 知 , 误差 等 于 偏差 的 平方 加 上 方差 。 所 以 ,偏差 和 方差 都 对 总 体 误 差 有 贡献 ， 而 偏 
差 贡 献 得 更 多 一 些 。 但 请 记 住 , 你 真正 想 最 小 化 的 是 误差 ， 而 不 是 偏差 或 方差 。 一 个 过 于 复杂 的 
模型 会 导致 高 方差 低 偏差 , 一 个 过 于 简单 的 模型 则 会 导致 低 方差 高 偏差 , 但 它们 最 终 的 误差 可 能 
是 一 样 的 。 当 你 拟 合 数据 时 ， 必 须 找到 偏差 和 方差 的 合适 折 中 值 。 在 后 面 的 几 节 中 , 会 介绍 几 种 
避免 过 拟 合 的 原则 性 方法 。 但 是 , 我 们 要 透彻 理解 的 是 偏差 和 方差 的 概念 ， 因 为 人 们 会 经 常用 到 
这 两 个 概念 ， 所 以 你 必须 熟练 掌握 。 


下 面 再 将 这 两 个 概念 与 本 书 前 面 的 内 容 联系 起 来 。 例 如 , 在 最 近邻 方法 中 , 如 果 增 大 值 ， 
那么 就 可 以 扩大 近邻 的 范围 ,这样 便 可 以 起 到 降低 方差 的 效果 , 因为 有 了 更 大 的 空间 去 调整 模型 。 
但 是 这 样 做 可 能 会 增 大 偏差 , 因为 我 们 选择 了 更 多 与 起 始点 相关 性 越 来 越 小 的 点 。 使 用 更 多 近邻 
去 构建 KNN 模型 ， 可 以 减 小 方差 ， 因 为 有 更 多 的 值 发 挥 了 作用 。 但 是 ， 这 样 会 引入 更 多 偏差 ， 
因为 我 们 引入 了 更 多 的 点 ， 而 这 些 点 与 起 始点 的 相关 性 越 来 越 小 。 


决策 树 是 另 一 个 例子 。 我 们 知道 单 棵 决策 树 容 易 出 现 过 拟 合 ， 这 意味 着 它 有 很 高 的 方差 。 但 
是 ， 随 机 森林 希望 牺牲 一 些 偏差 来 换取 更 小 的 方差 ， 它 的 方法 是 使 用 多 个 随机 变异 的 树 ， 然 后 采 
用 它们 的 平均 结果 。 就 像 我 们 在 KNN 中 增 大 然后 再 进行 平均 一 样 ， 在 随机 森林 中 也 可 以 使 用 
同样 的 方法 ,使 用 不 止 一 棵 决策 树 ， 然 后 再 取 平 均 结果 。 
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这 就 是 偏差 -方差 权衡 。 你 必须 在 总 体 精确 度 和 分 散 度 之 间 做 个 选择 。 偏 差 和 方差 对 总 体 误 
差 都 有 贡献 ， 而 误差 是 你 真正 需要 最 小 化 的 ， 请 记 住 这 一 点 ! 
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本 书 前 而 说 过 训练 与 测试 是 防止 过 拟 合 的 一 种 好 方法 , 它 还 可 以 度量 模型 预测 未 知 数 据 的 效 
果 。 使 用 一 种 称 为 折 交 叉 验证 的 技术 ， 可 以 将 训练 与 测试 的 效果 再 提高 一 个 层次 。 下 面 就 来 介 
绍 这 种 克服 过 拟 合 的 强大 技术 ， 即 折 交 叉 验证 的 概念 及 使 用 方法 。 

复习 一 下 训练 /测试 法 ， 它 的 做 法 是 将 用 来 建立 机 器 学 习 模型 的 数据 分 为 两 个 部 分 : 训练 数 
据 集 和 测试 数据 集 。 然 后 使 用 训练 集中 的 数据 训练 模型 ,再 使 用 保留 下 来 的 测试 集 数据 评价 模型 
的 表现 。 这 样 可 以 防止 对 现 有 数据 的 过 拟 合 ， 因 为 用 来 测试 的 数据 对 模型 来 说 是 未 知 的 。 

但 是 ,训练 /测试 法 还 有 自身 的 局 限 性 ， 对 于 某 种 训练 集 与 测试 集 的 划分 ， 还 是 可 能 出 现 过 
拟 合 。 你 的 训练 集 数据 或 许 不 能 真正 代表 整个 数据 集 ， 其 中 可 能 有 过 多 的 干扰 因素 。 这 就 是 引入 
折 交 叉 验证 的 原因 ， 它 也 使 用 训练 测试 方法 ， 但 更 上 一 层 楼 。 

这 种 方法 听 起 来 很 复杂 ， 实 际 上 相当 简单 。 

(1) 不 是 将 数据 分 成 两 份 ， 一 份 用 来 训练 ， 一 份 用 来 测试 ， 而 是 将 其 分 成 份 。 

C) 保留 一 份 数据 用 于 测试 ， 评 价 模型 结果 。 

G) 使 用 余下 的 -1 份 数据 训练 模型 ， 然 后 使 用 测试 数据 集 , 并 用 它 来 评价 模型 在 所 有 这 些 不 
同 的 训练 数据 集中 的 效果 。 

(4) 对 这 些 模型 结果 的 误差 指标 (及 方 ) 求 平均 值 ， 得 到 折 交 叉 验证 的 最 终 误差 。 

就 是 这 样 ， 这 是 进行 训练/ 测试 的 一 种 更 强健 的 方法 ， 也 是 折 交 叉 验证 的 方法 之 一 。 

你 可 能 会 有 疑问 , 如果 对 保留 的 那 份 测试 数据 过 拟 合 会 怎么 样 ? 我们 对 每 份 训练 数据 集 都 使 
用 同样 的 测试 数据 集 ， 如 果 测 试 数据 集 没有 代表 性 ， 又 会 怎么 样 ? 
现在 有 了 使 用 随机 方法 的 上 折 交 叉 验证 的 变种 。 在 训练 时 ， 每 次 都 可 以 随机 地 选择 训练 数据 
ls ， 在 划分 数据 和 评价 结果 时 ， 也 可 以 随机 分 配 。 但 通常 情况 下 ， 人 们 说 起 折 交 叉 验证 时 ， 所 
说 的 就 是 特定 的 技术 ， 即 保留 一 份 数据 用 于 测试 ,使 用 余下 的 各 份 数据 进行 训练 ， 通 过 每 份 数据 
构建 了 一 个 模型 后 ， 再 使 用 测试 数据 集 评价 所 有 训练 出 的 模型 。 
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使 用 scikit-learn 进行 K 折 交叉 验证 
幸运 的 是 ，scikit-learn 可 以 非常 容易 地 实现 上 折 交 叉 验 证 ， 甚 至 比 训练 /测试 法 还 要 容易 ! 真 
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的 是 太 容 易 了 ， 你 只 要 动手 做 就 可 以 。 


在 实际 工作 中 ， 需 要 使 用 上 折 交 叉 验 证 的 情况 是 ， 你 有 一 个 模型 需要 调整 ， 模 型 中 有 不 同 的 
变量 和 参数 需要 你 去 修正 。 


以 多 项 式 回归 中 多 项 式 的 阶 数 为 例 。 我 们 的 做 法 是 使 用 折 交 义 验证 试验 模型 中 所 有 能 够 变 
动 的 值 ， 然 后 找 出 一 个 能 使 测试 数据 集 误差 最 小 的 模型 ,这 就 是 你 的 最 佳 选 择 。 实 际 上 ， 你 还 可 
以 使 用 折 交 又 验 证 来 测量 模型 在 测试 数据 集 上 的 准确 度 , 不 断 地 优化 模型 。 你 可 以 一 直 试验 模 
型 中 不 同 的 参数 值 、 不 同 的 可 变 条 件 ， 其 至 试验 完全 不 同 的 模型 ， 直 到 找 出 使 误差 最 小 的 模型 。 


下 面 通过 一 个 例子 来 看 看 如 何 进行 折 交 又 验 证 。 我 们 将 再 次 使 用 芒 尾 花 数据 集 和 SVC 方 
法 ,来 告诉 你 实现 折 交 又 验证 有 多 么 容易 。 我 们 要 编写 一 些 代码 ， 以 实现 折 交 叉 验证 和 训练 / 
测试 方法 。 你 会 看 到 这 确实 非常 容易 ,这 是 件 好 事情 ， 因 为 这 是 一 种 用 来 测量 监督 式 学 习 模型 准 
确 度 和 有 效 性 的 方法 。 

请 打开 KFoldCrossValidation.ipynb 文件 跟着 一 起 做 。 这 里 将 再 次 使 用 交尾 花 数据 集 ， 在 介绍 
数据 降 维 时 我 们 曾 用 过 这 个 数据 集 。 


回忆 一 下 前 面 讲 过 的 内 容 , 药 尾 花 数 据 集 中 有 150 条 营 尾 花 测 量 数据 ,这 些 数 据 中 包含 每 株 
交尾 花花 鸭 的 长 度 和 宽度 以 及 葛 片 的 长 度 和 宽度 。 每 株 音 尾 花 都 属于 三 个 种 类 之 一 。 我 们 要 做 的 
是 建立 一 个 模型 ， 在 已 知 花 辩 和 莹 片 的 长 度 和 宽度 的 情况 下 ， 准 确 预 测 每 株 高 尾 花 所 属 的 种 类 。 
下 面 开始 吧 。 


我 们 将 使 用 SVC 模型 ， 如 果 你 还 记得 ， 便 会 知道 它 是 一 种 非常 强大 的 数据 分 类 方法 。 如 果 
你 需要 复习 一 下 ， 就 去 看 看 前 面 的 章节 。 

import numpy as np 

from sklearn import cross_validation 


from sklearn import datasets 
from sklearn import svm 
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iris = datasets.1load_ iris() 
# 将 苗 尾 花 数 据 划 分 为 训练 数据 集 和 测试 数据 集 ， 保 留 40% 的 数据 用 于 测试 
XxX_ train, XxX test, y_train, y_test = 
cross_validation.train test_split (iris.data, 

iris.target, test_size=0.4, 
random_state=0) 


# 建立 一 个 SVC 模型 ,使 用 训练 数据 预测 苗 尾 花 分 类 


clf = svm.SVC (kernel='linear', C=1) .fit(X train, y_train) 

# 使 用 测试 数据 测量 模型 性 能 

clf.score(X test, y_test) 

我 们 要 使 用 scikit-leam 中 的 cross_validation 库 。 首 先 ， 进行 一 次 传统 的 训练 集 与 测试 
集 划 分 ， 仅 仅 一 次 ， 看 看 效果 如 何 。 
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使 用 train test_split() 函数 可 以 非常 轻松 地 完成 任务 ,我 们 需要 给 train test_split() 
函数 提供 特征 数据 。iris .qata 中 包含 了 所 有 营 尾 花 的 实测 数据 ,，iris.target 则 是 要 预测 的 





目标 。 




















在 这 个 例子 中 ， 每 株 竟 尾 花 都 有 对 应 的 种 类 。test_size 表示 的 是 训练 数据 所 占 的 比例 ， 
0.4 表示 我 们 要 从 总 数据 中 随机 抽取 出 40% 的 数据 用 于 测试 ， 其 余 60% 用 于 训练 。 
train_test_split () 函数 会 返回 4 个 数据 集 ， 即 特征 数据 的 训练 集 和 测试 集 以 及 目标 数据 的 
训练 集 和 测试 集 。 所 以 , Xx_train 数据 集中 包含 了 60% 的 高 尾 花 测 量 数据 ，x_test 数据 集中 包 
含 了 40% 的 营 尾 花 测 量 数据 ， 用 于 测试 最 终 模型 的 结果 。y_train 和 y_test 分 别 是 训练 数据 














和 测试 数据 中 章 尾 花 的 实际 种 类 。 



































然后 ， 我 们 建立 一 个 SVC 模型 ， 用 来 在 已 知 测量 数据 的 情况 下 预测 高 尾 花 的 种 类 ， 并 只 使 用 
训练 数据 构建 这 个 模型 。 在 拟 合 SVC 模型 时 ,使 用 线性 核 函 数 ， 并 仅 使 用 用 于 训练 的 特征 数据 和 








目标 数据 。 我 们 称 这 个 模型 为 c1f。 在 此 之 后 ， 对 clf 


























调用 score () 函数 来 检验 它 在 测试 数据 集 








上 的 表现 ， 也 就 是 说 ,使 用 保留 的 高 尾 花 实测 数据 和 种 类 为 这 个 模型 打分 ， 看 看 它 的 效果 如 何 。 











Out[2]: 0.96666666666666667 











结果 非常 好 ! 在 基于 实测 数据 预测 未 知 营 尾 花 的 种 类 时 , 模型 的 准确 度 超过 了 96%, 真是 大 























但 是 ， 这 是 个 非常 小 的 数据 集 ， 如 果 没 记 错 的 话 ， 只 有 150 条 记录 。 所 以 ,我 们 只 能 使 用 
150 条 记录 的 60% 训 练 模型 ， 其 余 40% 测 试 模型 。 这 个 数量 非常 小 ,对 于 特定 的 训练 集 与 测试 集 





划分 ， 仍 然 可 能 出 现 过 拟 合 。 我 们 要 使 用 大 折 交 叉 验 说 








避免 这 种 情况 。 尽 管 上 折 交 义 验 证 是 一 种 




















非常 强大 的 技术 ,但 使 用 起 来 比 训练 /测试 方法 还 要 简单 。 真 是 太 棒 了 ! 下 面 来 看 看 如 何 使 用 。 


# 向 cross_val_score 中 传 入 一 个 模型 、 完 整数 据 集 及 其 





“真实 ” 值 ， 以 及 交叉 验证 的 折 数 : 


Scores = cross_validation.cross_val_score(clf, iris.data, iris.target, 


CVv=5) 


# 打印 出 每 折 的 准确 率 : 


print Scores 


# 打印 出 所 有 5 折 的 平均 准确 率 : 


print Scores .mean () 


我 们 已 经 有 了 一 个 模型 , 即 为 了 预测 而 定义 的 SVC 模型 ， 只 需 调 用 cross_valiqation 包 
的 cross_val_score () 函数 即 可 。 所 以 ， 我 们 要 向 这 个 函数 中 传人 一 个 某 种 类 型 的 模型 ( clf )、 








交尾 花 的 种 类 )。 








带 有 所 有 实测 数据 的 完整 数据 集 ( 特征 数据 iris.data ) 和 所 有 目标 数据 iris.target (所 有 


设 定 cv=5， 这 表示 要 使 用 5 份 不 同 的 训练 数据 集 ， 同 时 保留 1 份 作为 测试 数据 集 ， 也 就 是 
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说 ,要 运行 5 次 。 这 就 是 我 们 需要 做 的 。 这 个 函数 会 自动 在 整个 数据 集 上 评价 模型 ， 以 5 种 不 同 
方式 划分 数据 集 ， 并 分 别 给 出 结果 。 

如 果 打 印 出 结果 ,就 会 看 到 一 个 列表 ,其 中 包含 了 每 次 迭代 的 误差 指标 。 我们 对 这 些 指标 求 
平均 值 ， 作 为 k 折 交叉 验证 的 整体 误差 指标 。 











有 和 < 8.9 8.93333333. 1。 ] 
8.966666666667 











我 们 使 用 了 5 折 交 又 验 证 ， 结 果 比 预想 的 还 要 好 ，98% 的 准确 率 ， 太 棱 了 ! 实际 上 ， 其 中 有 
几 次 准确 率 是 100%， 真 是 激动 人 心 。 


我 们 看 看 能 不 能 做 得 更 好 。 前 面 使 用 的 是 线性 核 函 数 ,， 如 果 使 用 多 项 式 核 函数 会 如 何 ? 能 
好 吗 ? 会 不 会 出 现 过 拟 合 ? 还 是 能 更 好 地 拟 合 数 据 ? 这 取决 于 高 尾 花 的 那些 指标 与 它 的 实际 种 
类 之 间 是 否 存在 线性 关系 或 者 多 项 式 关 系 。 来 试 一 下 : 

clf = svm.SVC (kernel='poly', C=1).fit (xX train, y_train) 

scores = cross_validation.cross_val_ score(clf, iris.data, iris.target, cv=5) 


print scores 
print Scores .mean () 


我 们 使 用 同样 的 方法 又 做 了 一 次 , 但 这 次 使 用 的 是 多 项 式 核 函 数 。 我 们 又 使 用 训练 数据 集 拟 
合 了 一 个 模型 ,但 上 折 交 叉 验 证 不 会 管 你 什么 时 候 拟 合 模型 ， 因 为 cross_val_score () 会 重复 
执行 拟 合 的 过 程 。 
































8.9 9.93333333 1. ] 
8.966666666667 











当 改 为 使 用 多 项 式 核 函数 时 ,我 们 发 现 总 体 得 分 还 不 如 原来 。 由 此 可 见 ， 多项式 核 函数 可 能 
过 拟 合 了 ,使 用 折 交 又 验 证 便 可 发 现 它 的 得 分 不 如 线性 核 函数 。 


这 里 的 重点 是 , 如 果 只 使 用 一 次 训练 集 和 测试 集 的 划分 , 则 根本 意识 不 到 过 拟 合 。 只 进行 一 
次 划分 得 到 的 结果 确实 和 使 用 线性 核 函数 的 交叉 验证 的 结果 一 样 , 这 样 , 我 们 在 不 经 意 间 对 数据 
进行 了 过 拟 合 。 如 果 不 进行 x 折 交 义 验证 ， 则 根本 意识 不 到 这 种 情况 。 这 是 一 个 非常 好 的 例子 ， 
其 使 用 下 折 交叉 验证 对 过 拟 合 进行 了 提醒 和 补救 , 单 次 的 训练 集 与 测试 集 划分 是 起 不 到 这 种 作用 
的 。 所 以 ,一 定 要 掌握 上 折 交 叉 验 证 。 

如 果 你 还 想 再 练习 一 下 , 可 以 试 试 不 同 的 多 项 式 阶 数 。 因 此 , 实际 上 你 可 以 指定 不 同 的 阶 数 。 
多 项 式 核 函数 的 默认 阶 数 是 三 ， 但 你 可 以 试 试 不 同 的 值 ， 比 如 二 阶 。 

这 样 会 好 些 吗 ? 如 果 你 把 阶 数 降 到 了 一 , 那 就 是 线性 核 函 数 了 , 不 是 吗 ? 或 许 它们 还 是 多 项 
式 关 系 ， 或许 只 是 个 二 阶 多 项 式 关 系 。 试 一 下 ,看 看 能 得 到 什么 结果 。 这 就 是 折 交 又 验证 。 如 
你 所 见 ， 由 于 scikit-learn 的 存在 ， 它 使 用 起 来 非常 容易 。 这 是 一 种 测量 模型 效果 的 更 强大 的 方法 。 
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8.3 数据 清理 和 标准 化 


这 可 能 是 本 书 全 部 内 容 中 最 简单 但 最 重要 的 一 部 分 。 我 们 将 介绍 对 输入 数据 的 清理 , 它 将 花 
费 你 大 量 的 时 间 。 

对 输入 数据 清理 的 效果 以 及 对 原始 输入 数据 理解 的 程度 , 会 严重 影响 结果 的 质量 , 甚至 比 模 
型 选择 和 模型 调 优 的 影响 还 要 大 。 所 以 ， 千 万 注意 ， 这 部 分 非常 重要 ! 

















PP 作为 一 名 数据 科学 家 ,对 原始 输入 数据 的 清理 通常 是 其 最 重要 也 是 最 耗 时 的 工作 ! 


























告诉 你 一 个 数据 科学 中 残酷 的 事实 , 花费 你 时 间 最 多 的 工作 就 是 清理 和 准备 数据 , 相对 来 说 ， 
数据 分 析 和 试验 新 算法 花费 的 时 间 非 常 少 。 数 据 科 学 家 并 不 总 是 像 人 们 认为 的 那样 光鲜 亮丽 。 尽 
管 如 此 ， 数 据 清理 确实 是 非常 重要 的 ， 需 要 你 足够 重视 。 


在 原始 数据 中 ,你 会 发 现 很 多 乱七八糟 的 东西 。 你 拿 到 的 数据 确实 是 很 原始 的 数据 ， 它 会 非 
常 “ 脏 ”， 会 以 各 种 各 样 的 方式 被 污染 。 如 果 不 进行 清理 ， 就 会 严重 影响 你 的 结果 ， 最 终 导致 企 
业 做 出 错误 决策 。 


如 果 你 接收 了 糟糕 的 数据 , 但 没有 发 现 问题 并 进行 数据 清理 , 进而 又 基于 这 些 数 据 结果 给 企 
业 提供 了 错误 信息 ， 那 麻烦 就 大 了 。 所 以 一 定 要 注意 ! 


数据 中 有 各 种 各 样 的 问题 需要 你 注意 。 


口 异常 值 : 在 数据 中 ， 或 诈 有 些 数据 表现 得 很 奇怪 ， 如 果 仔 细 研 究 一 下 ， 你 会 发 现 它们 不 
是 原来 的 样子 了 。 一 个 很 好 的 例子 就 是 Web 日 志 数 据 ， 你 会 看 到 一 个 会 话 ID 重复 出 现 ， 
并 以 不 可 思议 的 、 人 类 不 能 完成 的 速度 做 某 种 事情 。 这 可 能 是 个 机 需 人 ， 是 运行 在 某 个 
地 方 候 取 你 网 站 数据 的 一 段 代码 。 它 也 可 能 是 恶意 攻击 。 但 不 管 怎样 ， 你 都 不 想 让 这 些 
行为 数据 出 现在 你 的 模型 中 ， 因 为 你 的 模型 是 用 来 预测 真实 人 类 使 用 网 站 的 行为 的 。 所 
以 ， 要 注意 异常 值 ， 在 建 模 时 要 能 够 识别 出 异常 值 ， 并 在 数据 中 除 掉 它 们 。 

口 缺失 数据 : 如 果 有 缺失 数据 ， 应 该 怎么 办 呢 ? 再 回 到 Web 日 志 的 例子 ， 某 一 行 中 可 能 有 

链接 来 源 ， 也 可 能 没有 ， 那 么 如 果 没 有 ， 应 该 怎么 办 呢 ? 创建 一 个 新 分 类 ， 表 示 缺 失 或 

不 确定 ? 或 者 干脆 把 这 一 行 扔 掉 ? 这 需要 你 慎重 地 考虑 一 下 。 

恶意 数据 : 有 人 会 试图 攻击 你 的 系统 ， 有 人 会 试图 欺骗 你 的 系统 ， 而 你 不 会 让 这 些 人 得 

。 假 设 你 正在 运行 一 个 推荐 系统 ， 那 么 就 会 有 人 试图 伪造 行为 数据 来 推销 他 们 的 新 产 

。 所 以 ， 你 需要 注意 这 种 事情 ， 确 保 能 识别 出 托 攻击 或 对 输入 数据 的 其 他 攻击 ， 并 把 
它们 从 最 终结 果 中 过 滤 出 去 ， 不 能 让 它们 为 所 欲 为 。 

口 错误 数据 : 如 果 有 些 系统 中 存在 软件 缺陷 ， 在 某 些 情况 下 输出 了 错误 的 数据 ， 应 该 怎么 
办 ? 这 是 可 能 发 生 的 。 遗 憾 的 是 ， 我 们 没有 什么 好 的 方法 来 预知 这 种 事情 。 不 过 ， 如 果 
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你 觉得 数据 不 正常 或 结果 讲 不 通 ， 那 么 就 应 该 仔细 研究 一 下 ， 有 时 就 能 发 现 当 初 导致 数 
据 错误 的 系统 底层 缺陷 。 可 能 是 系统 的 某 个 地 方 没有 正确 地 组 合 好 ， 可 能 是 会 话 在 某 个 
时 候 中 断 了 , 还 可 能 是 人 们 在 浏览 网 站 时 丢失 了 一 个 会 话 卫 , 又 使 用 了 一 个 新 的 会 话 ID。 








一 切 绰 有 可 能 。 








口 无 关 数据 : 无 关 数据 非常 简单 。 由 于 某 种 原因 ， 你 可 能 只 关心 纽约 市 的 人 口 信息 ,在 这 
种 情况 下 ， 世 界 上 其 他 地 方 的 人 口 数据 对 你 来 说 就 是 无 关 数 据 。 这 时 你 要 做 的 第 一 件 事 
就 是 将 其 他 数据 丢弃 ， 并 对 数据 进行 限制 ， 只 保留 你 真正 需要 的 数据 。 

口 不 一 致 的 数据 : 这 是 个 严重 的 问题 。 比 如 写 地 址 时 ， 人 们 会 将 同一 个 地 址 写成 多 种 不 同 
































的 形式 : 可 能 使 用 街道 的 缩写 ， 也 可 能 不 用 缩写 ， 甚 至 可 能 根本 就 不 写 街 道 。 人 们 可 能 


以 不 同 的 方式 来 组 合 地 址 ， 可 能 
增加 了 4 位 号 码 的 邮政 编码 。 有 上 
知道 如 何 将 这 些 信息 标准 化 。 









































更 用 不 同 的 拼写 方式 ， 可 能 使 用 基本 的 美国 邮政 编码 或 
会 写 上 国家 ， 有 时 则 不 写 。 你 需要 了 解 这 些 变化 ， 并 











口 再 来 看 看 关于 电影 的 数据 。 一 部 电影 在 不 同 国家 可 能 有 不 同 的 名 称 ， 一 本 书 在 不 同 国家 
也 可 能 有 不 同 的 名 称 ， 但 这 些 名 称 指 的 都 是 同一 个 事物 。 所 以 ， 你 需要 注意 这 种 需要 对 
































数据 进行 标准 化 的 情况 ， 这 时 同一 数据 可 以 表示 为 多 种 形式 ， 你 需要 将 它们 合并 起 来 ， 


才能 得 到 正确 的 结 


口 数据 格式 : 这 也 是 个 问题 。 数 据 的 格式 也 可 能 不 一 样 。 日 期 就 是 一 个 例子 。 在 美国 ， 总 





























是 使 用 月 日 年 (MM/DD/YY ) 这 样 的 形式 ， 但 在 其 他 国家 ， 日 期 的 形式 可 能 是 日 月 年 











(DD/MM/YY )。 你 应 该 注意 这 些 格式 上 的 差异 。 还 有 电话 号 码 ， 其 中 地 区 码 可 能 会 被 括 
号 括 起 来 ， 也 可 能 没有 括号 ; 号 码 的 每 个 部 分 之 间 可 能 有 短 划 线 ， 也 可 能 没有 。 社 会 保 


障 号 码 中 可 能 有 短 划 线 ， 也 可 能 没有 。 这 些 都 是 你 需要 注意 的 地 方 ， 你 需要 确认 在 处 理 





数据 时 ， 格 式 上 的 变化 不 会 被 当成 新 的 条 目 或 新 的 分 类 。 








所 以 ， 有 很 多 事情 需要 注意 ， 上 面 列 出 的 只 是 一 些 主要 的 注意 事项 。 请 记 住 : 若 衣 乱 输入 ， 
则 胡乱 输出 。 你 的 模型 只 能 与 你 提供 给 它 的 数据 一 样 好 , 这 是 绝对 确定 无 疑 的 ! 如 果 你 提供 了 大 
量 整 洁 的 数据 , 那么 即使 是 非常 简单 的 模型 也 会 表现 得 非常 好 , 效果 肯定 胜 过 使 用 脏 数 据 得 到 的 




















复杂 模型 。 











因此 , 请 准备 足够 多 的 数据 ， 而 高 质量 的 数据 往往 是 成 败 的 关键 。 一 些 现 实 中 特别 成 功 的 算 


法 简单 得 令 人 惊讶 , 它们 之 所 以 成 功 只 是 日 


rf 




















于 使 用 的 数据 质量 特别 高 , 量 特别 大 。 要 想得到 好 的 





结果 ， 并 不 总 是 需要 高 级 的 算法 。 很 多 时 候 ， 数 据 的 质量 和 数量 才 是 决定 因素 。 


要 永远 对 你 的 结果 保持 怀疑 ! 不 要 只 是 在 没有 得 到 想 要 的 结果 时 ， 才 回 过 头 来 检查 输入 数 
据 中 的 异常 。 如 果 这 样 做 ,那么 就 会 因为 追求 想 要 的 结果 或 者 避免 别人 的 质疑 而 无 意 中 引入 偏 
差 。 你 应 该 总 是 质疑 你 的 结果 ， 以 确保 自己 一 直 处 在 正确 的 轨道 上 ， 因 为 即使 你 得 到 了 一 个 满 
意 的 结果 ， 如 果 发 现 它 是 错 的 ,那么 它 就 是 错 的 ， 还 是 会 将 你 的 企业 引入 歧途 ， 总 有 一 天 会 伤 




















害 到 你 。 
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作为 例子 ， 我 建立 了 一 个 名 为 No-Hate News 的 网 站 ， 它 是 非 盘 利 性 质 的 ， 不 会 向 你 收 钱 。 
假设 我 想 找 出 这 个 网 站 上 最 受 欢 迎 的 页 面 , 这 个 问题 听 起 来 非常 简单 , 是 不 是 ?我 只 需 检查 所 有 
的 Web 日 志 ， 计 算出 每 个 页 面 的 点 击 量 ， 然 后 排序 就 可 以 了 ,不 是 吗 ? 这 有 什么 难 的 ?实际 上 ， 
这 个 问题 非常 困难 ! 下 面 就 来 看 看 这 个 例子 ,看 看 它 为 什么 很 困难 ,也 看 看 在 真实 数据 的 清理 中 
会 发 生 什 么 。 



































8.4 清理 Web 日 志 数 据 


我 们 来 展示 一 下 数据 清理 的 重要 性 。 我 自己 有 一 个 小 网 站 ， 上 面 有 一 些 Web 日 志 数 据 ， 我 
想 找 出 访问 量 最 高 的 网 页 。 这 个 任务 听 起 来 简单 ,但 正如 你 马上 看 到 的 ,实际 上 非常 困难 。 如 果 
你 想 跟着 做 的 话 ， 请 打开 TopPages.ipynb 文件 。 我 们 开始 ! 

实际 上 ， 我 们 有 一 个 网 站 访问 日 志 ， 这 是 一 个 包含 在 随 书 资料 中 的 真实 Apache HTTP 访问 
日 志 。 所 以 ， 如 果 你 想 做 练习 ， 请 一 定 将 下 面 的 路 径 修改 为 保存 随 书 资料 的 路 径 : 


logPath = "E:\\sundog-consult\\Packt\\DataScience\\access log.txt" 











8.4.1 对 Web 日 志 应 用 正则 表达 式 
下 面 这 段 代码 是 从 网 上 复制 下 来 的 ， 它 可 以 将 Apache 访问 日 志 中 的 行 解析 为 一 组 字段: 


format_pat= re.compilel 
r"(?P<host>[\d\.]+)\s" 
'(?P<identity>\S*) \s" 
"(2?P<user>\S*)\s" 
'\[(?P<time>.*?)\]\s" 
"(?P<request>.*?)"\s'! 
' (3?P<status>\d+) \s" 
'(?P<bytes>\S*) \s" 
"(?P<referer>.*?)"\s' 
"(?P<user_agent>.*?)"\s*! 




















Be 


) 


这 上段 代码 解析 的 信息 包括 主机 、 用 户 、 时 间 、 实际 页 面 请 求 、 状 态 、 来 源 链接 和 user_agent 
( 表示 访问 网 页 使 用 的 浏览 带 )。 它 会 建立 一 个 所 谓 的 正则 表达 式 ， 这 个 正则 表达 式 需 要 使 用 re 
库 ， 即 一 种 非常 强大 的 语言 ， 可 以 用 来 对 一 个 大 字符 串 做 模式 匹配 。 我 们 可 以 对 访问 日 志 中 的 每 
一 行 都 应 用 这 个 正则 表达 式 , 它 可 以 自动 地 将 访问 日 志 中 的 信息 解析 为 不 同 的 字段 。 运 行 一 下 这 
段 代码 。 


当务之急 是 写 一 段 脚 本 ,计算 并 跟踪 记录 每 个 URL 被 请 求 的 次 数 。 然 后 对 列表 进行 排序 ， 
就 能 找 出 请 求 次 数 最 多 的 页 面 ， 不 是 吗 ? 听 起 来 真是 太 简单 了 1 


所 以 ,我 们 将 创建 一 个 简单 的 Python 字典 ， 即 URLCounts。 打 开 日 志文 件 ， 对 其 中 的 每 一 
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行 都 应 用 正则 表达 式 。 如 果 返 回 了 我 们 所 需 模式 的 成 功 匹 配 ,， 就 认为 这 是 访问 日 志 中 非常 好 的 一 
行 。 


让 我 们 提取 出 请 求 字段 ， 这 是 实际 的 HTTP 请 求 ， 其 页 面 是 真正 被 浏览 器 请 求 的 页 面 。 把 这 

3 部分， 包括 动作 ( get 或 post )、 实 际 请 求 的 URL 和 使 用 的 协议 。 拆 分 完毕 之 

后 , 就 可 以 检查 URL 是 否 已 经 存在 于 字典 之 中 了 。 如 果 存 在 , 就 把 这 个 URL 被 访问 的 次 数 加 1; 

否则 ， 就 为 这 个 URL 建立 一 个 新 的 字典 项 ， 初 始 值 为 1。 对 日 志 中 的 每 一 行 都 这 样 处 理 ， 然 后 
按照 URL 计数 逆序 排序 ， 并 输出 结 


URLCounts = {} 
with open(logPath, "r") as f: 
fOr .11ine in (1. restrip(.) £6 1 1 Ey: 
match= format_pat.match (line) 
LF. at eh 
access = match.groupdict() 
request = access['redquest '] 
(action, URL, protocol) = request.split() 
if URLCounNnts.has_key (URL): 
URLCounts [URL] = URLCountSs [LIURL] + 1 
else: 
URLCounts [URL] = 1 
results = sorted (URLCounts, key=lambda i: int (URLCounts[i]), reverse=True) 

















for result in results[:20]: 





print result + ": " + str(URLCounts [result]) 
人 
运行 结果 如 下 。 
FileNotFoundError Traceback (most recent call last) 


<ipython-input-2-4256a7272ddf> in () 
14 URLCounts = {} 


15 

--> 16 with open(logPath, "r") as f: 
17 for Line in (L.rstrip() for 1 in f) 
18 match= format pat.match(line) 








FileNotFoundError: [Errno 2] No such file or directory: '~/Documents/6523/access log.txt' 








哎哟 ， 遇 到 了 一 个 错误 。 由 上 图 可 知 ， 我 们 至 少 缺 了 1 个 值 。 显 然 ， 有 些 请 求 字段 包含 的 不 8 
是 动作 、URL 和 协议 ， 而 是 另外 一 些 东 西 。 


来 看 看 是 什么 情况 。 如 果 我 们 打印 出 所 有 不 包含 那 3 项 的 请 求 字 段 , 那么 就 能 知道 里 面 是 什 
么 东西 了 。 所 以 , 这 里 要 做 的 是 编写 一 段 和 前 面 非常 相似 的 代码 ,同样 去 拆 分 请 求 字段 , 但 打印 
出 的 是 没有 得 到 所 需 3 个 字段 的 情况 : 


URLCounts = {} 
































with open(logPath, "r") as f: 
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for line in (l.rstrip() for 1 in f): 
match= format_pat.match (line) 
if match: 


access = match.groupdict() 

request = access['request'] 

fields = request.split() 

if (len(fields) != 3): 
print fields 


实际 情况 如 下 。 





['_\\xb0ZP\\x07tR\\xe5'] 
[] 
[] 
[] 
[] 
[] 
网 
[] 
[] 
[] 
[] 











我 们 有 一 批 空 字段 ， 这 是 首要 问题 。 然 后 上 图 第 一 个 字段 中 全 是 垃圾 信息 ， 谁 也 不 知道 它们 
来 自 哪里 , 但 显然 是 错误 数据 。 好 吧 ， 下 面 来 修改 一 下 脚本 。 


























8.4.2 ”修改 1 一 一 筛选 请 求 字 段 


我 们 要 丢弃 所 有 不 包括 3 个 字段 的 行 。 这 样 做 是 合理 的 , 因为 这 样 的 行 中 没有 任何 有 用 信息 ， 
它们 不 是 在 处 理 时 丢失 的 数据 。 修 改 一 下 代码 ， 实 现 这 个 操作 。 在 进行 处 理 之 前 添加 一 个 if 
(len (fields) == 3) 语 句 。 代 码 如 下 : 


URLCounts = {} 








with open(logPath, "r") as f: 


for line in (l.rstrip() for 1 in f): 
match= format_pat.match (line) 
if match: 


access = match.groupdict() 
request = access['request'] 
fields = request.split() 
if (len(fields) == 3): 
URL = fields[1] 
if URLCounts .has_key (URL): 
URLCouNts[URL] = URLCountSs [URL] + 1 
else: 
URLCouNnts[URL] = 1 
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results = sorted(URLCounts, key=lambda i: int (URLCounts[i]), reverse=True) 


for result in results[:20]: 
print result + ": " + str(URLCounts [result]) 


好 的 ， 有 结果 了 ! 





/xmlrpc.php: 68494 
/wp-login.php: 1923 

/: 440 

ba6G7 3 注 38 

/robots .txt: 123 

/sitemap index.xml: 118 
/post-sitemap.xml: 118 
/category-sitemap.xml: 117 
/page-sitemap.xml: 117 
/orlando-headlines/: 95 
/san-jose-headlines/: 85 
http://51.254.206.142/httptest.php: 81 
/comics-2/: 76 

/travel/: 74 
/entertainment/: 72 
/world/: 70 

/business/: 70 

/weather/: 70 

/national/: 70 
/national-headlines/: 70 




















但 是 , 这 不 像 是 我 们 网 站 上 访问 量 最 高 的 页 面 。 请 记 住 , 这 是 个 新 闻 网 站 ,我 们 应 该 有 很 多 
PHP 文件 访问 ， 它 们 是 Perl 脚本 。 实 际 情况 是 什么 呢 ? 点 击 数 最 高 的 是 xmlrpc .php 脚本 ， 然 
后 是 wP_login.php， 接 下 来 是 主页 。 这 没什么 用 处 。 再 接 下 来 是 *opots .txt， 以 及 一 大 堆 
XML 文件 。 


当 我 再 次 查看 访问 日 志 的 时 候 ， 发 现 网 站 受到 了 恶意 攻击 ， 有 人 试图 强行 进入 网 站 。 他 们 通 
过 xmlrpc.php 脚本 试图 猜 出 我 的 密码 ， 并 使 用 登录 脚本 试图 登录 。 幸 运 的 是 ， 在 他 们 得 手 之 
前 我 搞定 了 他 们 。 


这 就 是 恶意 数据 被 引入 我 们 数据 流 的 一 个 例子 ， 必须 将 其 过 滤 出 去 。 从 上 面 的 情况 看 ,恶意 
攻击 不 仅 查 看 了 PHP 文件 , 还 想 要 运行 它们 。 它 不 仅 提 交 get 请求, 还 对 脚本 文件 提交 了 post 
请 求 ， 试 图 在 我 的 网 站 上 运行 代码 。 


























































































































8.4.3 修改 2 一 一 饰 选 post 请 求 


我 们 搞 清楚 了 真正 关心 的 数据 ， 实 际 想 要 的 就 是 人 们 在 网 站 上 访问 网 页 的 行为 。 所 以 ， 顺 理 
成 章 ， 我 们 要 在 日 志文 件 中 过 滤 掉 那些 非 get 方式 的 请 求 。 下 面 要 做 的 是 ， 如 果 已 经 得 到 了 请 
求 字 段 中 的 3 项 ， 则 还 要 再 检查 一 下 ， 看 看 它 的 动作 是 不 是 get 。 如 果 不 是 ， 二 内 寻 汉 一 行 
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URLCounts = {} 


with open(logPath, "r") as f: 


fOr line Ln (letrio(ly Eor.] TF) 
match= format_pat.match (line) 


if match: 


access = match.groupdict() 
request = access['request'] 
fields = request.split() 
if (len(fields) == 3): 
(action, URL, protocol) = fields 


if (action == 


'GET' ) : 


if URLCounts .has_key (URL): 


URLCouNts[URL] = URLCouNts[URL] + 1 
else: 
URLCounts [URL] = 1 
results = sorted(URLCounts, key=lambda i: int (URLCounts[i]), reverse=True) 


for result in results[:20]: 


print result + ": " + str(URLCounts [result]) 


我 们 应 该 离 想 要 的 结果 更 近 了 ， 上 面 代码 的 结果 如 下 。 











/: 434 
tblogf':. ,138 


/comics-2/: 76 
/travel/: 74 


/world/: 70 
/business/: 70 
/weather/: 70 
/national/: 70 


/about/: 69 





/robots.txt: 123 

/sitemap index.xml: 118 
/post-sitemap.xml: 118 
/category-sitemap.xml: 117 
/page-sitemap.xml: 117 
/orlando-headlines/: 95 
/san-jose-headlines/: 85 
http://51.254.206.142/httptest.php: 81 


/entertainment/: 


/national-headlines/: 70 
/defense-sticking-head-sand/: 69 


72 


























耶 ! 这 个 结果 看 上 去 顺眼 多 了 。 但 是 ， 它 还 是 通 不 过 健全 测试 。 这 是 个 新 闻 网 站 ， 人 们 到 这 

















里 来 的 目的 是 阅读 新 闻 。 他 们 真 的 是 来 阅读 我 那 只 有 几 篇 文章 的 博客 的 吗 ? 我 不 这 么 认为 ! 这 有 





点 不 对 劲 。 所 以 , 我 们 再 研究 得 细致 





些 ， 看 看 到 底 是 谁 在 读 那些 博客 文章 。 如 果 你 打开 日 志文 








件 手动 检查 一 下 ， 就 会 看 到 很 多 博客 请 求 没有 任何 用 户 代理 ， 在 用 户 代 理 部 分 只 有 一 个 -， 这 非 





常 不 正常 。 
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54.165.199.171 - - [05/Dec/2015:09:32:05 +0000] "GET /blog/ HTTP/1.0" 200 31670 "-" "-" 











如 果 一 个 真正 的 用 户 通过 真正 的 浏 览 器 来 访问 这 一 页 ， 用 户 代 理 部 分 就 应 该 是 Mozilla、 
Internet Explorer 和 Chrome 等 。 所 以 ， 这 些 请 求 似乎 来 自 于 某 种 疏 虫 。 同 样 ， 还 有 一 些 隐藏 的 恶 
意 访问 没有 被 识别 出 来 。 


8.4.4 修改 3 一 检查 用 户 代理 


或 许 ， 应 该 再 检查 一 下 UserAgent， 看 看 这 些 请 求 是 否 真 的 是 由 人 发 起 的 。 打 印 出 所 有 不 同 
的 UserAgent。 我 们 还 是 使 用 相似 风格 的 代码 将 不 同 的 URL 都 加 总 起 来 , 这 样 就 可 以 看 到 所 有 不 
同 的 UserAgent， 排 序 之 后 就 可 以 找 出 日 志 中 最 常见 的 user_agent 字符 串 了 : 


UserAgents = {} 











with open(logPath, "r") as f: 


forw Tine in (lS rstrip() ‘for T, ‘TN FE)s 
match= format_pat.match (line) 
if match: 


access = match.groupdict() 
agent = access['user_agent'] 
if UserAgents.has_key (agent): 
UserAgents[agent] = UserAgentsl[lagent] + 1 
else: 

UserAgents[agent] = 1 





results = sorted(UserAgents, key=lambda i: int (UserAgents[i]), 
reverse=True) 


for result in results: 
print result + ": " + str(UserAgents[result]) 


结果 如 下 。 





Mozilla/4.0 (compatible: MSIE 7.0; Windows NT 6.0): 68484 

-: 4035 

Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0): 1724 

W3 Total Cache/0.9.4.1: 468 

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html): 248 

Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.249 
0.86 Safari/537.36: 158 

Mozilla/5.0 (Windows NT 6.1; WOW64; rv:40.0) Gecko/20100101 Firefox/40.0: 144 

Mozilla/5.0 (iPad; CPU OS 8 4 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Versio 
n/8.0 Mobile/12H143 Safari/600.1.4: 120 

Mozilla/5.0 (Linux; Android 5.1.1; SM-G900T Build/LMY47X) AppleWebKit/537.36 (KHTML, like G 
ecko) Chrome/46.0.2490.76 Mobile Safari/537.36: 47 

Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm): 43 

Mozilla/5.0 (compatible; MJl2bot/v1i.4.5; http://www.majesticl2.co.uk/bot.php?+): 41 
Opera/9.80 (Windows NT 6.0) Presto/2.12.388 Version/12.14: 40 

Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots): 27 

Ruby: 15 

Mozilla/5.0 (Linux; Android 5.1.1; SM-G900T Build/LMY47X) AppleWebKit/537.36 (KHTML, like G 
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可 见 , 多 数 用 户 代 理 都 是 正常 的 。 所 以 , 如 果 有 疏 虫 的 话 ( 在 这 个 例子 中 实际 上 是 恶意 攻击 )， 
它们 也 伪装 成 了 真正 的 浏览 器 。 这 个 短 划 线 user_agent 出 现 了 很 多 次 ， 我 不 知道 它 是 什么 


但 知道 它 不 是 真正 的 浏览 








? 














还 有 另 一 个 问题 ， 很 多 访问 都 是 来 自 于 网 页 爬虫 的 ， 比 如 谷歌 专门 聆 取 网 页 的 Googlebot， 
它们 只 是 为 了 搜索 引擎 疏 取 网 页 。 我 们 这 个 分 析 的 目的 是 想 看 看 在 网 站 上 有 哪些 网 页 被 真人 访 
间 ， 所 以 这 些 访问 同样 不 应 该 计 入 ,它们 只 是 自动 脚本 产生 的 访问 。 
































8.4.5 ”筛选 代 虫 与 机 器 人 


这 个 问题 变 得 有 些 困难 了 。 仪 任用 户 字 符 串 , 没有 什么 好 办 法 能 识别 出 候 忠 和 机 器 人 。 但 我 
们 可 以 采用 一 个 合理 的 替代 方法 ， 就 是 将 用 户 代理 中 包含 “bot” 这 个 词 或 缓存 中 是 以 前 的 请 求 
页 面 的 行 都 筛选 掉 。 除 此 之 外 ,还 要 筛选 掉 用 户 代理 是 一 个 短 划 线 的 行 。 所 以 , 我 们 还 要 再 次 优 
化 脚本 ， 除 去 那些 不 合理 的 UserAgent: 


URLCounts = {} 




















with open(logPath, "r") as f: 


for Jine ‘in (Lrstrip() for 3 Tr‘'f): 
match= format_pat.match (line) 
if match: 


access = match.groupdict() 

agent = access['user_agent'] 

if (not('bot' in agent or 'spider' in agent or 
'Bot' in agent or 'Spider' in agent or 
'W3 Total Cache' in agent or agent =='-')): 


request = access['request'] 
fields = request.split() 
if (len(fields) == 3): 
(action, URL, protocol) = fields 
if (aotion SS= OETS).: 
if URLCounNnts.has_key (URL): 
URLCouNts[URL] = URLCouNnts[URL] + 1 
else: 
URLCounts [URL] = 1 


results = sorted(URLCounts, key=lambda i: int (URLCounts[i]), reverse=True) 


for result in results[:20]: 
print result + ": " + str(URLCounts [result]) 
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结果 如 下 。 





soF 

/orlando-headlines/: 36 

/?page id=34248: 28 

/wp-content/cache/minify/000000/M9bPKixNLarUy00szs8D0215AA.js: 27 
/wp-content/cache/minify/000000/1Y7dDoIwDIVfiGOKxkfxfnbdrO4HuxICTy-it8ZwlS5PzfSftzPCckJem-x4qUWArqBPl15mygZLEgyhdOaoxTo 
GyGaiALiOfUnIz0qDLOdSZGE-nOlpc3kopDzrSyavyVt_ veb5qSsDVhjsQédHh B eE 2z2pYIGJ7TiBWRKeEio eT9UQe4xHhD1127mGRIryVu PRc-js: 27 
/wp-content/cache/minify/000000/M9AvYyUjVzUstLy7PLErVZzBl1IMKkosqt TPKtYvTi7KLCgPBgA.js: 27 
/wp-content/cache/minify/000000/fY45DoAwDAQ FMvKRQgFASZyWLajiN9ZzNHROO83MRkyt-pIctqYFJPedKyYzfHg2PZzOFiENAzaD07AxcpKmTO 
LORvDJjZt8KXEfhBUG]jZYCft8Eb0fvRALTXCw-css: 25 

/3?author=1: 21 

/wp-content/cache/minify/000000/hcrRCYAwDAXAhXyEjiQlYKAh4SVSx3cE7 uG7ASr4M9qg3kGWykladklK84LHtRj My6Y0Pfqcz-AA.js: 20 
/wp-content/uploads/2014/11/nhnil.png: 19 

/wp-includes/js/wp-emoji-release.min.js?ver=4.3.1: 17 
/wp-content/cache/minify/000000/BcGBCOAgCATAiUSaKYSERPk3avzuht4SkBJnt 4tHJdqgnPBqKldesTcN1R8.js: 17 

/wp-login.php: 16 

/comics-2/: 12 

/world/: 12 

/favicon.ico: 10 

/wp-content/uploads/2014/11/babyblues.jpg: 6 

/wp-content/uploads/2014/11/garfield.jpg: 6 

/wp-content/uploads/2014/11/violentcrime.jpg: 6 

/robots.txt: 6 














我 们 看 一 下 这 个 结果 。 前 两 个 条 目 看 上 去 非常 有 道理 ,不 出 所 料 主页 是 访问 次 数 最 多 的 。 
Orlando headlines 也 非常 受 欢迎 ， 因 为 我 使 用 这 个 网 站 比 其 他 任何 人 都 多 ， 我 就 住 在 奥兰多 。 但 
是 ， 后 面 的 那些 内 容 根 本 不 是 网 页 ， 而 是 一 大 堆 脚 本 和 CSS 文件 。 








8.4.6 ”修改 4 一 一 使 用 网 站 专用 筛选 器 


我 们 可 以 应 用 一 些 与 站 点 有 关 的 知识 , 这 个 站 点 上 所 有 合法 页 面 的 URL 都 是 以 斜 杠 结尾 的 。 
所 以 ,下 面 再 进行 一 次 修改 ， 将 不 是 以 斜 杠 结尾 的 页 面 都 除去 : 


URLCounts = {} 





with open (logPath, "r") as f: 


for ,Tinie Tn (Tretript)y :£0F .1, Ti ef)R 
match= format_pat.match (line) 
if match: 


access = match.groupdict() 
agent = access['user_agent'] 
if (not('bot' in agent or 'spider' in agent or 
'Bot' in agent or 'Spider' in agent or 
'W3 Total Cache' in agent or agent =='-')): 
request = access['request'] 
fields = request.split() 


if (Ten(fields) S33)2 
(action, URL, protocol) = fields 
if (URL.endswith("/")): 
if (a&ction 三 = "GET"): 


if URLCounts.has_key (URL): 
URLCounts [URL] = URLCouNts[URL] + 1 
else: 
URLCouNnts[URL] = 1 











results = sorted(URLCounts, key=lambda i: int (URLCounts[i]), reverse=True) 
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for result in results[:20] : 
print result + ": " + str(URLCounts [result]) 


结果 如 下 。 





2 
/orlando-headlines/: 36 
/world/: 12 

/comics-2/: 12 
/weather/: 4 

/about/: 4 

/australia/: 4 
/national-headlines/: 3 
/sample-page/feed/: 2 
/feed/: 2 

/technology/: 2 
/science/: 2 
/entertainment/: 1 
/san-jose-headlines/: 1 
/business/: 1 
/travel/feed/: 1 














最 后 ， 我 们 终于 得 到 了 合理 的 结果 ! 在 这 个 名 为 No-Hate News 的 小 网 站 上 ， 被 真人 访问 最 
多 的 页 面 就 是 主页 ， 其 次 是 Orlando headlines， 然 后 是 世界 新 闻 ， 接 下 来 是 漫画 ， 再 往 后 是 天 气 
和 关于 本 站 。 这 看 上 去 非常 合理 。 

如 果 你 研究 得 更 深入 一 些 ， 就 会 发 现 这 个 分 析 中 还 是 有 问题 的 。 例 如 ， 结 果 中 有 一 些 feed 
页 面 ， 这 是 想 从 网 站 上 取得 RSS 数据 的 机 器 人 访问 的 。 所 以 ， 这 是 个 很 好 的 例子 ， 说 明了 在 一 
个 看 似 简单 的 分 析 中 ， 要 想 取得 合理 的 结果 ， 需 要 的 预 处 理工 作 和 源 数据 清理 工作 有 多 人 么 多 。 

再 强调 一 次 , 必须 按照 原则 性 的 方法 来 清理 数据 , 不 能 有 选择 地 清除 那些 不 符合 预想 的 数据 。 
所 以 ， 要 永远 对 你 的 结果 保持 怀疑 ， 仔 细 检 查 源 数 据 ， 找 出 里 面 不 合理 的 东西 。 







































































8.4.7 ”Web 日志 数据 练习 


好 的 ， 如 果 你 想 更 多 地 练习 一 下 ， 那 么 可 以 解决 一 下 feed 问题 ， 从 结果 中 删除 那些 feed 页 
面 ， 因 为 它们 也 不 是 真正 的 Web 页 面 ， 这 可 以 使 你 更 加 熟悉 代码 。 或 者 ， 再 仔细 地 查看 一 下 日 
志文 件 ， 看 看 那些 feed 页 面 是 从 哪里 来 的 。 


或 许 还 有 更 好 、 更 强大 的 识别 出 网 站 访问 的 方法 ,你 可 以 随心 所 欲 地 试验 。 但 我 希望 你 能 记 
住 : 数据 清理 极其 重要 ， 而 且 特别 耗费 时 间 。 


没 想到 吧 , 对 于 像 “ 网 站 上 访问 量 最 大 的 页 面 是 什么 ”这 么 一 个 简单 的 问题 , 要 想 取 得 合理 
结果 居然 如 此 困难 。 可 以 想见 ， 如 果 处 理 这 么 一 个 简单 的 问题 都 需要 如 此 多 的 数据 清理 工作 , 那 
么 对 于 那些 更 加 复杂 的 问题 和 算法 , 在 数据 未 经 清理 的 情况 下 , 它们 将 会 以 各 种 各 样 的 方式 影响 
最 后 结果 。 
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理解 源 数据 是 非常 重要 的 , 你 要 仔细 检查 数据 及 其 有 代表 性 的 样本 , 确定 知道 将 什么 东西 输 
入 了 系统 。 要 永远 对 自己 的 结果 持 怀疑 态度 ， 结 合 原始 数据 找 出 问题 所 在 。 


8.5 数值 型 数据 的 标准 化 


这 一 节 的 内 容 不 多 , 我 只 是 想 提 醒 你 要 注意 数据 标准 化 的 重要 性 ， 要 确认 各 种 输入 特征 具 
有 同样 的 规模 ， 而 且 是 可 以 比较 的 。 这 个 问题 有 时 很 重要 ， 有 时 又 不 那么 重要 ， 但 你 必须 知道 
什么 时 候 很 重要 。 要 时 刻 想 着 这 个 问题 ， 因 为 如 果 不 进 行 标准 化 的 话 ， 有 时 候 会 影响 你 的 结果 
质量 。 

有 时 候 ， 模 型 建立 在 一 些 不 同 的 数值 型 属性 之 上 。 如 果 你 还 记得 , 在 多 变量 模型 中 ,我们 要 
考虑 汽车 的 多 个 属性 ， 有些 属 性 的 单位 是 不 能 直接 比较 的 。 再 举 一 例 ,假设 我 们 要 研究 年 龄 和 收 
入 之 间 的 关系 ， 年 龄 的 范围 在 0 到 100 之 间 ， 而 收入 范围 可 能 会 在 0 到 10 亿美 元 之 间 ， 如 果 使 
用 不 同 的 货币 单位 ， 这 个 范围 可 能 更 大 。 对 有 些 模型 来 说 则 没有 这 个 问题 。 


如 果 你 做 回归 ,那么 通常 这 不 是 个 大 问题 。 但 是 ， 对 于 其 他 模型 ， 除 非 将 所 有 特征 都 缩放 到 
一 定 范围 , 否则 效果 不 会 太 好 。 如 果 你 粗心 大 意 , 则 可 能 会 使 某 些 特征 比 其 他 特征 更 重要 。 比 如 ， 
你 认为 未 经 标准 化 的 收入 和 年 龄 在 模型 中 是 可 以 相 比 的 ， 就 会 使 得 收入 的 影响 远 远 超过 年 龄 。 


标准 化 可 能 在 属性 中 引入 偏差 , 这 也 是 个 问题 。 或 许 你 的 数据 中 有 一 部 分 是 偏 余 的, 有 时 你 
需要 在 数据 可 见 范围 内 对 这 种 数据 进行 标准 化 ,而 不 是 在 从 0 到 数据 最 大 值 的 范围 内 。 对 于 应 该 
采用 哪 种 标准 化 方式 ， 没 有 一 定之 规 ， 我 只 能 说 在 使 用 任何 技术 之 前 都 要 先 阅 读 文档 。 


举例 来 说 ， 在 使 用 scikit-learn 实现 PCA 方法 时 ， 有 一 个 whiten 选项 ， 它 可 以 自动 对 数 
据 进 行 标准 化 。 你 可 以 使 用 这 个 参数 。 此 外 也 有 一 些 预 处 理 模 块 可 以 自动 进行 标准 化 和 数据 
缩放 。 


还 要 注意 ， 有 些 文本 数据 也 要 转换 为 数值 型 数据 或 定 序数 据 。 如 果 数 据 中 有 yes 和 no, 那 
么 应 该 将 它们 转换 为 1 和 0， 并 保持 一 致 。 再 次 强调 ， 要 阅读 文档 。 多 数 方法 可 以 很 好 地 使 用 未 
经 标准 化 的 原始 数据 , 但 在 你 第 一 次 使 用 一 种 新 技术 之 前 ,一定 要 阅读 文档 ， 搞 清楚 输入 数据 是 
否 需 要 缩放 或 标准 化 ， 或 者 进行 白化 处 理 。 如 果 需 要 ， 可 以 使 用 scikit-learn 非常 容易 地 实现 ， 
你 只 需 记得 要 进行 数据 预 处 理 即 可 。 如 果 你 对 输入 数据 进行 了 缩放 , 那么 别 忘 了 也 要 对 结果 进行 
缩放 。 


如 果 你 想 对 结果 进行 解释 ， 有 时 候 需 要 在 处 理 完 数据 之 后 , 将 结果 还 原 到 原来 的 范围 。 如 果 
在 将 数据 输入 模型 之 前 ， 你 对 数据 进行 了 缩放 ,甚至 做 了 一 定 程度 的 偏 斜 化 处 理 , 那么 请 一 定 记 
得 在 将 结果 呈现 给 人 们 之 前 对 数据 进行 还 原 。 和 否则 ， 人 们 可 能 根本 理解 不 了 数据 的 意义 。 再 提醒 

下 , 也 是 给 你 一 个 小 小 的 忠告 , 在 将 数据 传递 给 特定 模型 之 前 ,一定 要 检查 是 否 需要 对 数据 进 
行 标准 化 或 日 化 处 理 。 
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本 节 没 有 练习 ,我 只 是 想 让 你 记 住 一 些 东 西 。 我 想 把 它 说 得 更 清楚 一 点 。 有 些 算法 需要 白化 
或 标准 化 ， 有 些 则 不 需要 。 所 以 ,一 定 要 阅读 文档 ! 如 果 算 法 需要 你 对 数据 进行 标准 化 ,文档 中 
通常 会 说 明 ， 而 且 会 提供 非常 简便 易 行 的 方式 。 请 一 定 注 意 这 个 问题 ! 











8.6 检测 异常 值 


异常 值 是 真实 数据 中 的 一 个 常见 问题 。 总 有 一 些 奇 怪 的 用 户 或 奇怪 的 代理 会 污染 你 的 数据 ， 
它们 行为 古怪 , 异 于 常人 。 它们 可 能 是 合法 的 异常 值 ， 也 可 能 是 由 真人 造成 的 , 不 是 某 种 恶意 攻 
击 或 伪造 数据 。 有 时 候 删 掉 它们 是 合适 的 ， 有 时 候 则 不 是 ,所 以 一 定 要 负责 任 地 做 出 决定 。 下 面 
来 看 儿 个 处 理 异常 值 的 例子 。 


例如 , 在 我 们 使 用 协同 过 滤 进 行 电影 推荐 的 时 候 , 或 许 有 一 些 高 级 用 户 看 了 所 有 电影 并 都 进 
行 了 评价 ， 他 们 就 可 以 对 所 有 其 他 用 户 的 推荐 造成 非 同 一 般 的 影响 。 


我 们 真 的 不 想 让 这 样 的 少数 人 在 系统 中 有 这 人 么 大 的 权力 。 所 以 , 将 他 们 作为 异常 值 筛选 出 去 
是 一 个 非常 合理 的 选择 。 可 以 根据 系统 中 的 评价 数量 识别 出 这 些 人 。 或 者 , 那些 没有 足够 多 评价 
的 用 户 也 可 以 被 认为 是 异常 值 。 


再 来 看 一 下 Web 日 志文 件 。 在 前 面 的 例子 中 ， 我 们 对 日 志文 件 进行 了 数据 清理 。 从 数据 清 
理 过 程 中 可 知 ,异常 值 可 以 告诉 我 们 数据 中 存在 比较 严重 的 问题 。 可 能 有 恶意 攻击 数据 ,可 能 
机 器 人 , 也 可 能 有 其 他 代理 。 这 些 数 据 都 应 该 丢弃， 因为 它们 不 是 我 们 想 建 模 研 究 的 真实 人 类 的 
行为 。 

如 果 有 人 想 知 道 美国 人 的 平均 收入 (不 是 收入 的 中 位 数 )， 那 么 就 应 该 排除 个 别 高 收入 者 。 
不 是 因为 你 不 喜欢 他 , 而 是 因为 他 的 亿 万 美元 收入 会 拉 高 平均 收入 , 尽管 不 会 改变 中 位 数 。 所以， 
不 要 通过 丢弃 异常 值 去 捏造 数据 。 但 如 果 异 常 值 与 你 的 建 模 目的 不 符合 ， 就 可 以 丢弃 它们 。 


那么 , 如 何 识别 出 异常 值 呢 ? 还 记得 标准 差 吗 ?本 书 前 面 介绍 过 它 。 标 准 差 是 检测 异常 值 的 
一 个 非常 有 用 的 工具 。 对 于 一 个 或 多 或 少 服从 正 态 分 布 的 数据 集 , 你 可 以 用 一 种 原则 性 的 方法 先 
计算 出 它 的 标准 差 。 如 果 有 个 数据 与 均值 之 间 的 距离 超过 了 一 个 或 两 个 标准 差 , 你 就 可 以 认为 它 
是 个 异常 值 。 

请 记 住 ,前 面 还 介绍 过 箱 线 图 , 它 也 是 一 种 检测 异常 值 并 进行 可 视 化 的 方法 。 箱 线 图 将 超过 
1.5 倍 四 分 位 距 的 值 定义 为 异常 值 。 

应 该 使 用 哪 种 方法 确定 异常 值 呢 ? 应 该 应 用 你 的 常识 , 关于 异常 值 没有 硬性 的 规则 。 你 必须 
先 用 肉眼 检查 数据 ， 看 一 下 它 的 分 布 , 再 看 一 下 直方 图 ,看 看 是 否 有 明显 的 异常 值 ， 在 丢弃 异常 
值 之 前 ， 应 该 研究 一 下 它 的 意义 。 

















































































































































































































8.6 检测 异常 值 209 





8.6.1 ”处 理 异 常 值 


下 面 通过 一 些 示例 代码 来 看 看 实际 工作 中 是 如 何 处 理 异常 值 的 。 我 们 来 练习 一 下 。 这 非常 简 
单 。 先 复习 一 下 ， 如 果 你 想 跟 着 做 ,请 打开 Outliers.ipynb 文件 ， 我 们 开始 : 


import numpy as np 


incomes 
incomes 


np.random.normal (27000, 15000, 10000) 
np.append (incomes, [1000000000]) 


import matplotlib.pyplot as plt 
plt.hist(incomes, 50) 
plt.show!() 


本 书 在 前 面 内 容 中 做 过 和 上 面 代码 非常 相似 的 事情 , 创建 了 一 个 虚构 的 美国 人 收入 分 布 直方 
图 。 这 里 要 创建 的 直方 图 分 布 的 均值 是 27 000 美元 /年 ， 标 准 差 是 15 000。 在 这 个 分 布 中 ， 我 们 
创建 了 10 000 个 虚构 的 美国 人 。 顺 便 说 一 句 ， 本 数据 纯 属 虚构 ， 尽 管 它 与 现实 相去 不 远 。 


接 下 来 ， 我 们 加 入 一 个 异常 值 ， 他 的 收入 是 10 亿美 元 。 我 们 把 他 放 在 数据 集 的 最 后 。 于 是 
就 有 了 一 个 27 000 美元 左右 服从 正 态 分 布 的 数据 集 ， 然 后 我 们 将 这 个 异常 值 加 进去 ， 放 在 最 后 。 


下 面 绘制 出 直方 图 。 
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哇 ! 这 张 图 没什么 用 ! 在 直方 图 中 ， 整 个 分 布 中 的 其 他 人 都 被 挤 成 了 薄 薄 的 一 层 ， 只 有 这 个 
10 亿美 元 收入 在 右边 一 柱 擎 天 , 碾 压 了 所 有 人 。 


男 外 一 个 问题 是 ， 如 果 我 们 想 知 道 普 通 的 美国 人 每 年 能 赚 多 少 钱 ， 想 通过 均值 来 找 出 答案 ， 
那么 得 到 的 就 不 是 一 个 很 有 用 的 数字 : 


incomes .mean () 
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上 述 代码 的 结果 如 下 。 


126892.66469341301 


高 收入 者 凭借 一 已 之 力 将 平均 收入 提高 到 了 126 000 美元 ， 真 是 荒唐 ， 因 为 我 们 知道 除去 
这 个 人 之 后 的 正 态 分 布 数据 的 均值 只 有 27 000 美元 。 所 以 ， 正 确 的 方法 是 使 用 中 位 数 ， 而 不 是 
均值 。 


但 是 , 如 果 出 于 某 种 原因 必须 使 用 均值 , 那么 正确 方法 就 是 将 这 样 的 异常 值 排除 在 外 。 所 以 ， 
我 们 需要 知道 如 何 找 出 这 些 人 。 你 可 以 随意 选择 一 个 标准 ， 比 如 “我 要 去 掉 所 有 收入 大 于 10 亿 
美元 的 人 ”， 然 而 这 不 是 一 种 原则 性 的 方法 。10 亿 是 如 何 来 的 呢 ? 


选择 哪个 数字 都 有 偶然 因素 。 更 好 的 方法 是 先 计算 出 数据 集 的 标准 差 , 然后 将 距离 均值 几 个 
标准 差 的 值 视 为 异常 值 。 


下 面 是 我 写 的 一 个 能 够 除 掉 异 常 值 的 简单 函数 ， 可 以 称 其 为 reject_outliers(): 


def reject_ outliers (data): 
u = np.median (data) 
s = np.stdl(data) 
filtered' e. [e. for ein data if (这 二 2 ETH BB)}] 
return filtered 




































































filtered = reject_outliers (incomes) 


plt.hist (filtered, 50) 

plt.show!() 
它 接受 一 个 数据 列表 ,然后 找 出 中 位 数 ， 再 算出 这 个 数据 集 的 标准 差 。 我 们 只 保留 距离 数据 中 位 
数 两 个 标准 差 之 内 的 数据 点 , 使 用 这 个 简单 好 用 的 reject_outliers() 图 数 处 理 收 入 数据 ， 自 
动 除去 那些 异常 值 。 
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果然 有 效果 ! 除去 了 这 个 异常 值 之 后 , 我 们 只 关注 那些 更 为 典型 的 数据 ,这 次 的 图 形 好 看 多 
了 。 非 常 棒 的 结果 ! 

这 就 是 一 个 识别 异常 值 的 例子 , 我 们 自动 去 除了 异常 值 , 或 者 也 可 以 使 用 任何 你 觉得 合适 包 
方法 来 去 除 。 请 记 住 , 一 定 要 按照 原则 来 处 理 异 常 值 , 不 要 因为 异常 值 很 麻烦 而 将 其 丢弃 。 要 搞 
清楚 异常 值 是 怎么 出 现 的 ， 以 及 它们 对 结果 会 造成 什么 影响 。 


顺便 说 一 句 ， 我 们 的 均值 现在 更 有 意义 了 ， 非 常 接近 27 000， 因 为 去 掉 了 异常 值 。 
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8.6.2 ”异常 值 练习 


如 果 你 想 练习 一 下 这 部 分 内 容 , 那么 就 像 我 通常 告诉 你 的 那样 随意 去 做 就 行 了 。 可 以 尝试 不 
同 的 标准 差 倍数 ， 试 着 加 入 更 多 异常 值 ， 以 及 一 些 不 那么 离谱 的 异常 值 。 可 以 再 虚构 一 些 异 常数 
据 用 来 练习 ， 看 看 你 能 否 成 功 地 找 出 它们 。 


这 就 是 异常 值 , 一 个 非常 简单 的 概念 ! 我 们 给 出 了 一 个 通过 标准 差 识别 异常 值 的 例子 ， 只 要 
检查 距离 均值 或 中 位 数 的 标准 差 倍数 即 可 。 由 于 异常 值 会 影响 均值 ， 因 此 中 位 数 是 更 好 的 选择 。 
使 用 标准 差 是 一 种 非常 好 的 识别 异常 值 的 方法 ， 比 选择 一 个 随意 的 标准 更 有 原则 性 。 你 需要 确定 
如 何 正 确 处 理 异 常 值 。 实 际 要 测量 的 是 什么 ?丢弃 异常 值 是 否 合适 ? 一 定 要 注意 ! 

























































































8.7 小 结 


本 章 首 先 介绍 了 在 偏差 和 方差 之 间 做 权衡 和 误差 最 小 化 的 重要 性 。 然后 介绍 了 k 折 交叉 验证 
的 概念 ， 以 及 如 何在 Python 中 实现 大 折 交 又 验 证 以 防止 过 拟 合 。 接 下 来 学 习 了 在 数据 处 理 之 前 
进行 数据 清理 和 标准 化 的 重要 性 。 最 后 研究 了 一 个 确定 网 站 上 最 受 欢迎 网 页 的 例子 。 下 一 章 将 介 
绍 如 何 使 用 Apache Spark 在 大 数据 上 进行 机 器 学 习 。 

















Apache Spark 一 一 
大 数据 上 的 机 器 学 习 








迄今 为 止 , 本 书 介绍 了 很 多 常用 的 数据 挖 气 和 机 器 学 习 技 术 ， 作为 数据 科学 工作 者 ,你 会 经 
常 使 用 这 些 技术 。 但 是 ， 它 们 都 是 在 桌面 上 运行 的 ， 单 机 使 用 的 是 像 Python 和 scikit-learn 这 样 
的 技术 ， 你 处 理 的 数据 不 能 超过 它们 的 能 力 。 


现在 ,每 个 人 都 在 谈论 大 数据 ,你 所 在 的 公司 也 可 能 确实 有 大 数据 需要 处 理 。 大 数据 意味 着 
你 不 可 能 完全 控制 数据 人 处理 过 程 ， 也 不 能 在 一 个 系统 中 处理 所有 数据 。 要 处 理 大 数据 ,你 需要 使 
用 整个 云 系统 或 计算 集群 的 资源 。 这 就 是 为 什么 要 使 用 Apache Spark。Apache Spark 是 一 个 功能 
非常 强大 的 工具 ,， 它 可 以 管理 大 数据 ,并 在 大 数据 集 上 进行 机 器 学 习 。 学 习 完 本 章 之 后 ， 你 会 对 
以 下 内 容 有 深刻 的 理解 : 


口 安装 与 使 用 Spark; 

口 弹性 分 布 式 数据 集 (RDD); 
口 MLlib 〈 机 器 学 习 库 ); 

口 Spark 中 的 决策 树 ; 

口 Spark 中 的 大 均值 聚 类 。 







































































9.1 安装 Spark 


本 节 要 为 使 用 Apache Spark 做 好 准备 ， 并 展示 几 个 使 用 Apache Spark 解决 问题 的 例子 ， 这 
些 问 题 在 本 书 前 面 已 经 使 用 单机 技术 解决 过 了 。 我 们 要 做 的 第 一 件 事 是 将 Spark 安装 在 你 的 计算 
机 上 。 接 下 来 的 几 个 小 节 将 详细 地 介绍 如 何 安 装 Spark， 它 的 安装 过 程 非常 简单 直接 ， 但 也 有 一 
些 陷阱 。 所 以 ,不 要 跳 过 这 些小 节 ， 要 想 成 功 运行 Spark， 有 些 事情 需要 特别 注意 ， 尤 其 是 在 
Windows 系统 中 。 下 面 开 始 在 系统 上 安装 Apache Spark， 你 可 以 跟着 一 起 做 。 


现在 我 们 只 是 在 自己 的 桌面 上 运行 Spark， 但 是 本 章 提供 的 程序 也 完全 可 以 运行 在 实际 的 
Hadoop 集群 中 。 对 于 在 本 章 中 编写 的 脚本 , 你 可 以 在 桌面 上 以 本 地 化 的 方式 在 Spark 的 standalone 
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模式 下 运行 ， 也 可 以 从 一 个 Hadoop 集群 中 的 主 节 点 运行 。 然 后 ， 可 以 对 其 进行 扩展 ， 使 它 可 以 
利用 Hadoop 集群 的 全 部 能 力 处 理 大 规模 数据 集 。 尽 管 我 们 准备 在 自己 的 计算 机 上 以 本 地 化 的 方 
式 运 行 ， 但 请 记 住 ， 同 样 的 概念 可 以 扩展 到 在 集群 中 运行 。 











9.1.1 在 Windows 系统 中 安装 Spark 


在 Windows 系统 中 安装 Spark 需要 几 个 步骤 , 我们 将 会 进行 详细 介绍 。 随 后 , 我 们 会 简单 地 
介绍 一 下 在 其 他 操作 系统 上 的 安装 。 如 果 你 已 经 非常 熟悉 在 机 央 上 安装 系统 并 设置 环境 变量 , 那 
么 可 以 按照 下 面 的 快速 说 明 进 行 安装 。 如 果 你 不 熟悉 Windows 内 部 功能 ， 我 会 在 后 面 的 小 节 中 
对 每 一 步 都 进行 详细 介绍 。 下 面 是 给 那些 Windows 高 手 准备 的 快速 安装 步骤 。 


(1) 安装 JDK: 你 首先 要 安装 JDK， 也 就 是 Java Development Kit。 可 以 去 Sun 的 网 站 上 下 载 
并 安装 。 我 们 需要 JDK， 尽 管 在 本 书 中 是 使 用 Python 进行 开发 ， 但 是 在 底层 Python 会 被 转换 为 
Scala 代码 ，Spark 本 身 就 是 用 Scala 开发 的 ， 而 Scala 是 运行 在 Java 解释 器 上 的 。 所 以 ,为 了 运 
行 Python 代码 ， 你 需要 Scala， 它 是 作为 Spark 的 一 部 分 默认 安装 的 。 同 样 ， 要 运行 Scala 代码 ， 
你 也 需要 Java， 更 精确 地 说 ， 是 Java 解释 器 。 这 就 像 一 个 夹心 蛋糕 。 


(2) 安装 Python: 显然 ， 你 还 需要 Python, 但 如 果 你 认真 学 习 了 本 书 ， 那么 肯定 已 经 安装 好 
了 Python 环境 ， 希 望 是 Enthought Canopy。 所 以 ,我 们 可 以 跳 过 这 一 步 。 


(3) 安装 Hadoop 系统 上 的 Spark 预 编译 版 本 : 幸运 的 是 ，Apache 网 站 上 提供 了 开 箱 即 用 的 
Spark 预 编译 版 本 , 它 针 对 最 新 版 的 Hadoop 进行 了 预 编 译 。 你 无 须 设 置 任何 东西 ， 只 要 将 它 下 载 
到 计算 机 上 ， 保 存在 合适 的 位 置 ， 大 多 数 情 况 下 是 没有 问题 的 。 


(4) 创建 confllog4j.properties 文件 : 我 们 要 进行 一 些 系统 设置 , 其 中 之 一 就 是 调整 警告 级 别 ， 
这 样 当 我 们 在 努力 工作 时 ， 就 不 会 收 到 大 量 垃 圾 警告 信息 了 。 我 们 会 简单 地 介绍 一 下 如 何 设 置 。 
一 般 情 况 下 ， 你 需要 重 命名 一 个 属性 文件 ， 然 后 调整 里 面 的 错误 设置 。 

(5) 添加 SPARK_HOME 环境 变量 : 接 下 来 需要 建立 一 些 环境 变量 来 确保 可 以 从 任何 路 径 运 行 
Spark。 我 们 要 添加 一 个 SPARK_HOME 环境 变量 ， 指 向 Spark 的 安装 路 径 。 然 后 在 系统 路 径 中 添 
加 #sSPARK_HOME%N\bino 这 样 , 当 我 们 运行 Spark 的 Submit`PySpark 或 其 他 Spark 命令 时 , Windows 
便 会 知道 去 哪里 找到 它们 。 

(6) 设置 HADOOP_HOME 变量 :在 Windows 系统 中 ,我 们 还 要 做 另外 一 件 事 ,就 是 设置 HADOOP_ 
HOME 变量 ， 因 为 即使 在 standalone 系统 中 你 不 会 用 到 Hadoop，Spark 也 希望 能 找到 Hadoop 的 一 
些 痕 迹 。 

(7) 安装 winutils.exe: 最 后 ， 我 们 需要 安装 winutils.exe 文件 。 本 书 资 源 中 有 个 链接 指向 了 
winutils.exe 文件 。 


如 果 你 想 更 详细 地 了 解 这 些 步 骤 ， 可 以 参考 以 下 各 个 小 节 。 
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9.1.2 ”在 其 他 操作 系统 上 安装 Spark 


在 其 他 操作 系统 上 安装 Spark 时 ， 所 需 的 步骤 和 前 面 基本 一 样 ， 主 要 区 别 在 于 如 何在 系统 上 
设置 环境 变量 。 设 置 了 环境 变量 后 ， 就 可 以 在 每 次 登录 后 自动 应 用 这 些 变量 了 。 不 同 的 系统 有 不 
同 的 环境 变量 。macOS 及 各 种 版 本 的 Linux 都 有 不 同 的 环境 变量 ， 所 以 你 应 该 熟悉 一 种 Unix 命 
令 行 工具 ， 并 知道 如 何在 系统 中 设置 环境 变量 。 多 数 使 用 OS 或 Linux 进行 开发 的 用 户 都 应 
该 已 经 掌握 这 种 基本 技能 了 。 当 人 然 ， 如 果 不 使 用 Windows 系统 ， 也 就 不 再 需要 winutils.exe 了 。 
这 就 是 在 不 同 操作 系统 上 安装 Spark 的 主要 区 别 。 






































9.1.3 安装 Java Development Kit 


要 安装 Java Development Kit， 请 回 到 浏览 器 ， 打 开 一 个 新 标签 页 ， 然 后 搜索 JDK ( Java 
Development Kit 的 缩写 )。 这 会 将 你 带 到 Oracle 网 站 ， 从 这 里 可 以 下 载 Java。 











rs GC | © www.oracle.com/technetwork/java 









C 〇 RACLE OO ca 


—= Menu Q 态 Sinn couny ~ 










Oracle Technology Network > Java > Java SE > Downloads 





Java SDKs and Tools 
































Java SE Oveview | Downloads |[ Documentation |[ Community || Technologies |[ Training 

Java EE 至 JavaSE 

JavaME Java SE Downloads 六 JaEE and Glassfsh 
Java SE Support 二 Java ME 

Java SE Advanced & Suite 5 Java Card 

A 
Java Embedded $ 5 
过 > - 地 NetBeansIDE 
ee 宇 java TD NetBeans E 
到 Java Mission Control 
Web Tier R 
ee ee 素 Java APls 

JavaT Java Platform (JDK) 8u131 NetBeans with JDK 8 
i echnical Articles 

ew to Java 

Java Platform, Standard Edition § Demos and Videos 

Community 人 
i Java SE 8u131 至 Forums 

Si Java SE 8u131 includes important security fixes and bug fixes. Oracle strongly recommends 

that all Java SE 8 users upgrade to this release 得 Java Magazine 


Learn more » 





二 Javanet 





Important planned change for MD5-signed JARs 


音 Developer Training 
Starting with the April Critical Patch Update releases, planned for April 18 2017, all JRE 于 二 





versions willtreatJARs signed with MD5 as unsigned. Learn more and view testing Tutorials 
instructions. > 
For more information on cryptographic algorithm support, please check the JRE and JDK 到 Javacom 











Crypto Roadmap. 





» Installation Instructions JDK 
DOWNLOAD # 
» Release Notes 


» Oracle License 


。 Java SE Products Server JRE 


。Third Party Licenses 


。 Certified System Configurations 


» Readme Files 
JDK ReadMe JRE 


» JREReadMe 


Which Java package do lneed? 





。 Software Developers: JDK (Java SE Development Kit). For Java Developers. Includes a 
complete JRE plus tools for developing, debugging, and monitoring Java applications 








在 Oracle 网 站 上 ， 点 击 JDK DOWNLOAD。 接 下 来 ,点击 Accept License Agreement， 然 
后 选择 适合 你 的 操作 系统 的 下 载 选 项 。 
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Java Platform, Standard Edition 


Java SE 8u131 

Java SE 8u131 includes important security fixes and bug fixes. Oracle strongly recommends 
that all Java SE 8 users upgrade to this release. 

Learn more + 


Important planned change for MD5-signed JARs 
Starting with the April Critical Patch Update releases, planned forApril 18 2017, all JRE 
versions willtreat JARs signed with MD5 as unsigned. Learn more and view testing 


instructions. 
For more information on cryptographic algorithm support, please check the JRE and JDK 
Crypto Roadmap. 





» Installation Instructions JDK 
。 Release Notes 
。 Oracle License 

。 Java SE Products Server JRE 
。 Third Party Licenses 
" Certified System Configurations 


" Readme Files 
" JDK ReadMe 


" JRE ReadMe 


JRE 
DOWNLOAD # 








我 要 选择 的 是 64 位 的 Windows， 需 要 下 载 的 文件 大 小 是 198 M。 








Java SE Development Kit 8u131 
Youmustacceptthe Oracle Binary Code License Agreementfor Java SE to download this 


software. 
Thank you for accepting the Oracle Binary Code License Agreement for Java SE; youmay 
now download this software. 

Product / File Description File Size Download 
Linux ARM 32 Hard Float ABI 77.87 MB jdk-8u131-linux-arm32-vip-hfittar.gz 
Linux ARM 64 Hard Float ABI 74.81 MB jdk-8u131-linux-arm64-vfp-hfittar.gz 
Linux x86 164.66 MB 蚊 jdk-8u131-linux-i586.rpm 
Linux x86 179.39 MB 义 jdk-8u131-linux-i586.tar.gz 
Linux x64 162.11 MB 义 jdk-8u131-linux-x64.rpm 
Linux x64 176.95 MB 义 jdk-8u131-linux-x64.targz 
Mac OS X 226.57 MB 义 jdk-8u131-macosx-x64.dmg 
Solaris SPARC 64-bit 139.79 MB jdk-8u131-solaris-sparcv9 tarZ 
Solaris SPARC 64-bit 99.13 MB 和音 jdk-8u131-solaris-SparcVv9g9 targz 
Solaris x64 140.51 MB 和 剖 jdk-8u131-solaris-x64 tarZ 
Solaris x64 96.96 MB 章 jdk-8u131-solaris-x64 targz 
Windows x86 191.22 MB jdk-8u131-windows-i586.exe 


Windows x64 198.03 MB jdk-8u131-windows-x64.exe 
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下 载 完成 之 后 ， 找 到 安装 文件 开始 安装 。 请 注意 ， 在 Windows 系统 上 安装 时 ， 不 能 全 部 接 
受 默认 设置 。 这 是 在 Windows 系统 上 安装 时 的 特别 注意 事项 。 当 我 写作 本 书 时 ，Spark 的 版 本 是 
2.1.1， 人 们 发 现 Windows 系统 上 的 Spark 2.1.1 和 Java 之 间 存 在 问题 。 这 个 问题 就 是 ， 如 果 Java 
的 安装 路 径 中 有 空格 ， 它 就 会 失效 ， 所 以 必须 确保 将 Java 安装 在 没有 空格 的 路 径 中 。 这 意味 着 
你 不 能 跳 过 这 一 步 ， 即 使 已 经 安装 了 Java。 下 面 我 们 展示 一 下 正确 的 做 法 。 在 安装 程序 中 , 点 击 
Next, 如 下 图 所 示 , 你 会 看 到 不 管 是 哪个 版 本 , 安装 程序 都 试图 将 JDK 安装 在 默认 的 C: \Program 
Files\Javayjdk 目录 中 。 











Select optional features to install fom the list below. You can change your choice of features after 
installation by using the Add/Remove Programs utility in the Control Panel 


Feature Desaription 

Java SE Development Kit 8 
Update 131 (64-bit), induding 
the JavaFX SDK, a private JRE, 





and the Java Mission Control 
tools suite, This will require 
180MB on your hard drive. 








C:\Program Fies\UJava\idk1,8,0_131\ 











Program Files 中 的 空格 会 带 来 麻烦 ， 所 以 我 们 点 击 Change... 按 钮 ， 将 其 安装 在 cjdk 中 ， 
这 是 一 个 非常 简单 的 路 径 ， 既 没有 空格 ， 也 容易 记忆 。 


Browse to the new destination folder 
Look in: 


Ek jdk1.8.0_131 
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然后 ,安装 程序 要 安装 Java 运行 时 环境 ,为 安全 起 见 , 我们 也 将 它 安装 在 没有 空格 的 路 径 中 。 
在 JDK 安装 的 第 二 步 ， 应 该 会 看 到 下 面 这 个 界面 。 








Destination Folder 


Click "Change" to install Java to a different folder. 


Install to: 
C:\Program Files\Java\jrel.8.0_131 











Change Destination Folder 
Java will be installed in the selected folder. 





4 色 Local Disk (C:) 


> DD Program Files 
/program Files (x86) 


y SparkCourse 

















好 了 ， 安 装 成 功 ! 


现在 , 你 需要 记 住 JDK 的 安装 路 径 ， 在 我 们 这 个 例子 中 ， 其 安装 路 径 是 C:ydk。 还 需要 几 个 
步骤 。 下 面 ， 我 们 要 安装 Spark。 





9.1.4 安装 Spark 


打开 一 个 新 的 浏览 器 标签 页 ， 访 问 spark.apache.org， 点 击 Download Spark 按钮 。 
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: Cc 1O spark.apache.org 六 | 


Saad 


Pp ArK m Lightning-fast cluster computing 





Download Libraries ~ Documentation ~ Examples Community ~ Developers ~ Apache Software Foundation ~ 





Latest News 
Apache Spark™ is afast and general engine for large-scale data processing . 

Spark 2.1.1 released (May 02,2017) 
Spark Summit (June 5-7th, 2017, 
San Francisco) agenda posted (Mar 
31,2017) 

Speed 120 T 10 Spark Summit East (Feb 7-9th, 2017, 

Boston) agenda posted (Jan 04, 2017) 

Run programs up to 100x faster than Hadoop 


MapReduce in memory, or 10x faster on disk. 


Spark 2.1.0 released (Dec 28, 2016) 
a 
Spark Archive 


Running time (s) 
oS888 


Apache Spark has an advanced DAG execution engine that supports acyclic 


data flow and in-memory computing 
Logistic regression in Hadoop and Spark Download Spark 


Built-in Libraries 


Ease of Use text_file = spark.textFile("hdfs://...") SQL and DataFrames 


Spark Streaming 
Write applications quickly in Java, Scala Python R. text_file.flatmap(lambda line: line.split()) MLilib (machine learning) 
” My .map(lambda word: (word, 1)) GraphX (graph) 
.reduceByKey(lambda a, b: a+b) 
Spark offers over 80 high-level operators that make it easy to build parallel Third-Party Projects 


apps. And you can use it interactively from the Scala, Python and R shells. Word count in Spark's Python API 











本 书 中 使 用 的 是 Spark 2.1.1， 但 任何 高 于 2.0 版 的 版 本 都 可 以 运行 得 很 好 。 





Download Apache Spark 
1. Choose a Spark release: |2.1.1 (May 02 2017) v | 
2. Choose a package type: | Pre-built for Apache Hadoop 2.7 andlater _ 
3. Choose a download type: [Direct Download "| 
4. Download Spark: spark-2.1.1-bin-hadoop2.7.tgz 
5. Verify this release using the 2.1.1 signatures and checksums and project release KEYS. 


Note: Starting version 2.0, Spark is built with Scala 2.11 by default. Scala 2.10 users should download the Spark source package and 
build with Scala 2.10 support. 











确定 你 下 载 的 是 预 编译 版 本 ， 选 择 Direct Download 选项 ， 接 受 所 有 默认 设置 ， 然 后 点 击 第 

条 指示 后 面 的 链接 下 载 程序 包 。” 
这 样 ， 我 们 就 下 载 了 一 个 TGZ (Tarin GZip) 文件 ， 你 可 能 对 这 种 类 型 的 文件 不 是 太 熟 悉 。 
说 实话 ，Windows 不 是 Spark 的 首选 操作 系统 ， 因 为 在 Windows 中 没有 能 够 解压 TGZ 文件 的 内 


























Q@ 实际 上 ， 现 在 的 Spark 下 载 页 面 上 已 经 没有 Direct Download 选项 了 ， 直 接点 击 第 3 条 指示 中 的 链接 下 载 即 可 。 
一 一 译 者 注 
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安装 
女 了 至 





置 应 用 ， 这 意味 着 你 需要 


可 以 到 的 和 去 下 载 。 如 
安装 完 WinRAR 之 后 ， 就 可 以 在 Windows 中 解压 TGZ 文件 了 。 


64 位 的 WinRAR 安装 程序 。 





个 能 解压 TGZ 文件 的 应 用 软件 。 我 使 用 的 软件 是 WinRAR， 你 





果 需 要 ， 找 到 Downloads 页 ， 模 


R 据 你 的 操作 系统 下 载 32 位 或 








© | © wwwrarlabcomjdownloadhtm 


人 
RARLAB winRAR and RAR archiver downloads 


Latest English WinRAR and RAR beta versions 
Software name 


WinRAR x86 (32 bit 5.50 beta 3 
RAR 5.50 beta 3 for Linux 


RAR 5. ta 3 xX 


Latest localized WinRAR beta versions 
Language 


Home 
RAR 
News 
Themes 
Extras 
Downloads 
Dealers 
Feedback 
Partnership 
Imprint 
Other 
Armenian (32 big 
Chi Tradi 64 bi 
English (64 bit) 
Finnish (32 bi 
Finnish (64 bi 
French (32 bit) 
French (64 bi 
German (64 bi 
Hungarian (32 bit) 
Lithuanian (32 bit) 
了 ian (32 bi 
Mongolian (64 bi 
Portuguese (32 bit) 
Portuguese (64 bi 
Portuguese Brazilian (32 bit) 
Portuguese Brazilian {64 bi 
R ian (32 bi 
Russian (32 bit) 
Serbian Cyrillic (32 bit) 
Serbian Cyrillic {64 bi 
Swedish (32 bi 


Swedish (64 bit) 
Ukrainian (32 bit) 
Ukrainian (64 bi 





User interface 

Graphical and command line 
Graphical and command line 
Command line only 
Command line only 
Command line only 
Command line only 


License 
Tral 
Trial 
Tnal 
Tral 
Trial 
Tnal 


Version 

5.50 beta 3 
5.50 beta 3 
5.50 beta 3 
5.50 beta 3 
5.50 beta 3 
5.50 beta 3 
5.50 beta 3 
5.50 beta 3 
5.50 beta 3 
5.50 beta 3 
5.50 beta 3 
5.50 beta 3 
5.50 beta 3 
5.50 beta 3 
5.50 beta 3 
5.50 beta 3 
5.50 beta 3 
5.50 beta 3 
5.50 beta 2 
5.50 beta 2 
5.50 beta 3 
5.50 beta3 
5.50 beta 3 
5.50 beta 3 
5.50 beta 2 
5.50 beta2 
5.50 beta 3 
5.50 beta 3 
5.50 beta 3 
5.50 beta 3 
5.50 beta 3 
5.50 beta 3 
5.50 beta 3 
5.50 beta 3 

















下 面 解压 TGZ 文件 。 我 把 下 载 的 Spark 程序 包 放 在 了 我 的 Downloads 文件 夹 下 ， 打 开 这 个 


文件 夹 ， 在 压缩 文件 上 点 击 鼠 标 右 键 ， 将 文件 解压 到 指定 的 文件 夹 中 。 我 还 


Downloads 文件 夹 中 。WinRAR 可 以 帮助 我 们 完成 这 个 任务 。 





是 把 它 放 在 了 




















Chipboard organi 
"Thispc » WoBlock (E) » Dowrionds | open wthw 
辐 pictures # 人 人 Name ” 转 aaafie. 
DataScience 男 eh 四 btact Here 
Final skycodezip 性 Etractto spark-1.6.2-bin-hadoop2.6\ 
SetupVideos 国 Sky-frag.gts! TZip > 
Ca Skymax_ 3.1_RWC-2016-03-13zip Scan with Windows Defender.. 
Skymao_ CTD_Metar.zip Open with... 
SD Sypesetup .oe 仍 TortoiseSVN > 
a Thispc SMp_crash-zip s 
和 SMPp3-Bestzip Restore previous versions 
六 SMPp3-Best2zip Sendto > 
A SMp3-beta7.zip FE 
Downloads 
加 SMPMessages-h Copy 
Music 的 source (Decsv 
司 Pictures source @).csv Create shortcut 
三 videos Qi sourcecsv Delete 
ia Local Disk (C:) 对 spark-1.6.1-bin-hadoop2.6 (1)tg Rename 
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于 是 ,在 Downloads 文件 夹 中 就 有 了 Spark 程序 包 中 的 文件 。 打 开 Spark 文件 来， 就 可 以 看 
到 如 下 图 所 示 的 内 容 。 所 以 ， 应 该 把 Spark 安装 在 你 能 记 住 的 地 方 。 








Name Date modified Type Size 

bin 6/1/2017 6:42 PM File folder 

上 电 conf 6/1/2017 6:42 PM File folder 

NN data 6/1/2017 6:42 PM File folder 

NN examples 6/1/2017 6:42 PM File folder 

电 jars 6/1/2017 6:42 PM File folder 

NN licenses 6/1/2017 6:42 PM File folder 

python 6/1/2017 6:42 PM File folder 

坟 R 6/1/2017 6:42 PM File folder 

DB sbin 6/1/2017 6:42 PM File folder 

局 yarn 6/1/2017 6:42 PM File folder 

LJ LICENSE 4/26/2017 5:40 AM File 18 KB 
NOTICE 4/26/2017 5:40 AM File 25 KB 
Lj RELEASE 4/26/2017 5:40 AM File 1 KB 











显然 ， 你 不 想 把 它们 放 在 Downloads 文件 夹 中 ， 所 以 我们 打开 一 个 新 的 资源 管理 器 窗口 ， 
在 C 盘 中 创建 一 个 新 目录 ， 命 名 为 Spark。 于 是 ， 我 们 的 Spark 将 要 安装 在 Ci\spatk 文件 夹 中 ， 
非常 简单 易 记 。 打 开 这 个 文件 夹 ， 再 回 到 下 载 Spark 的 文件 夹 , 使 用 Ctrl+A 选择 所 有 文件 ， 再 用 
CtrltC 进行 复制 ， 然 后 回 到 C:spark， 使 用 CtrltV 粘贴 文件 。 




















和 me OI 下 Users\nidhishas\Downloads\spark\spark-211-bin-hadoop2.5 (1)\spark-21.1-bin = | 
Organize v Include in library ™ Share with New folder [ pes open De PR Fe 
Name Date modifie 本 
让 Fa 
型 上 点 bn 
三 人 conf 
量 cC 前 dst 
时 8 examples 
Ep Bjrs 
licenses 
Lb 点 pyhon 
ac Br 
中 人 县 :bn 
一 ? Byam 
国 v [uceNse 
D NomICE 26/201 A 
旦 co RELEASE 4/26/2017 540 AM 
多 上 
el 
cat 
i Ne 
































重要 的 一 点 是 ,复制 粘贴 的 是 spark 文件 夹 中 的 内 容 , 而 不 是 spark 文件 夹 本 身 。 这样 , 在 C 
盘 的 spark 文件 夹 中 ， 就 有 了 Spark 发 行 版 中 的 所 有 内 容 。 
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还 需要 做 一 些 设置 。 在 Ci\spark 文件 夹 中 ,打开 conf 文 件 夹 , 为 了 不 被 日 志 消 息 淹没 ,我们 
要 修改 一 下 日 志 级 别 。 在 log4j.properties.template 文件 上 点 击 鼠 标 右键 ， 然 后 选择 Rename。 




















LJ docker.properties.template 4/26/2017 5:40 AM TEMPLATE File 1 KB 
Lj fairschedulerxmltemplate 4/26/2017 5:40 AM TEMPLATE File 2KB 
| L_J log4j.propertiestemplate 4/26/2017 5:40 AM TEMPLATE File 2KB | 
| metrics.properties.template 4/26/2017 5:40 AM TEMPLATE File 8 KB 
LJ slaves.template 4/26/2017 5:40 AM TEMPLATE File 1 KB 
LJ spark-defaults.conf.template 4/26/2017 5:40 AM TEMPLATE File 2KB 
LJ spark-env.sh,template 4/26/2017 5:40 AM TEMPLATE File 4KB 











删除 文件 名 中 的 .template, 使 它 成 为 一 个 实际 的 log4j.properties 文件 。Spark 会 使 用 这 个 文件 
来 配置 日 志 。 





L_J docker,properties.template 4/26/2017 5:40 AM TEMPLATE File 1KB 
L_J fairschedulerxmltemplate #4/26/2017 5:40 AM TEMPLATE File 2KB 
[Chiegtjproperties | 4/26/2017 540 AM TEMPLATE File 2KB 
LL metrics.properties.template 4/26/2017 5:40 AM TEMPLATE File 8 KB 
L_J slaves.template 4/26/2017 5:40 AM TEMPLATE File 1KB 
LL spark-defaults.conf ,template 4/26/2017 5:40 AM TEMPLATE File 2KB 
L_J spark-env.sh.template 4/26/2017 5:40 AM TEMPLATE File 4KB 


Rename 





人 


1 I you change a file name extension, the file might become unusable. 


Are you sure you want to change it? 




















使 用 文本 编辑 器 打开 这 个 文件 。 在 Windows 中 ， 你 可 以 在 文件 上 单 击 鼠标 右键 ， 然 后 选择 
Open with ， 再 选择 WordPad。 在 文件 中 找到 log4j.rootCategory=INFO 这 一 行 。 











18 $$ Set everything to be logged to the console 

19 log4j -rootCategory=INFO, console 

20 log4j -apPPendez -console=ozg-sapache 1og4]j -Conscoleappenderz 

21 log4j .appender.console.target=System.err 

22 log4j .appender .console.layout=o0rg.apache.1094j .PatternLayout 

23 log4j .appender.console.layout .ConversionPattern=$d{yyY/MM/dd HH:mm:ss} SP Sc{1}: men 








将 这 一 行 修改 为 log4j.rootCategory=ERROR， 这 样 的 话 ， 当 运行 程序 时 ， 就 不 会 出 现 那 些 乱 
七 八 糟 的 无 用 信息 了 。 保 存 文件 ， 关 闭 文本 编辑 器 。 
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至 此 , 我 们 安装 了 Python 、Java 和 Spark。 下 一 件 要 做 的 事情 是 安装 一 个 欺骗 电脑 的 小 程序 ， 
让 你 的 电脑 以 为 Hadoop 是 存在 的 。 这 一 步骤 也 只 是 在 Windows 中 才 需 要 ， 如果 你 使 用 的 是 Mac 
或 Linux， 那 么 可 以 跳 过 这 一 步 。 


我 可 以 提供 这 种 小 程序 。 请 访问 http://media.sundog-soft.com/winutils.exe， 下 载 winutils.exe 
文件 ， 这 是 一 个 可 执行 文件 ， 用 来 欺骗 Spark， 让 它 认为 你 已 经 有 了 Hadoop。 


























D http://media.sundog-soft.com/winutils.exe 


Q http://media.sundog-soft.com/winutils.exe - Google Search 














因为 我 们 要 在 桌面 上 运行 脚本 ， 对 性 能 要 求 不 高 ， 所 以 不 用 真 的 安装 Hadoop。 这 只 是 在 
Windows 中 运行 Spark 的 一 个 小 技巧 。 下 载 完毕 之 后 ， 在 Downloads 文件 夹 中 找到 这 个 程序 ,使 
用 Ctrl+C 复制 ， 然 后 在 C 盘 给 它 建 个 文件 夹 。 














园 ZA_Connect 5/31/20171:14 PM Application 477 KB 
加 ZA_Connect (2) 5/31/2017 4:44 PM Application 477 KB 
园 ZA connect 由 5/31/2017 4:34 PM Application 477 KB 
国 ] winzip21 3/29/20176:36 PM Application 2KB 
加 winutiks 5/31/2017215PM Application 2KB | 
国 ] winrar-x64-55b3 5/31/20171:05PM 。 Application 2KB 




















还 是 在 C 盘 根 目录 下 创建 新 文件 来 ， 命 名 为 winutils。 
MB SparkCourse 6/1/2017 12:27 PM File folder 
MD Users 3/9/2017 3:10 PM Filefolder 
BB Windows 3/10/2017 9:56 AM File folder 
| [winutts |] 5/31/2017216 PM Filefolder 
LJ FoxitReaderPrinterProfile 5/9/2017 4:16 PM XML Document 0KB 














打开 winutils 文件 来， 在 其 中 创建 一 个 bin 文件 夹 。 








点 » Computer » Local Disk(C:) » winutils » 








Organize 本 Open Include in libran > Share with v New folder 
Name Date modified Type Size 


本 5 |Jbin 5/31/2017 216 PM Fiefolder 








在 bin 文件 夹 中 ， 粘 贴 下 载 的 winutils.exe 文件 。 这 样 ， 我 们 就 有 了 C:\winutils\bin 文件 夹 和 
winutils.exe 文件 。 
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GS DB ， Computer » LocalDisk(C:) » winutils » bin 


Organize 了 回 open New folder 





y Fa Name Date modified Type Size 


Cc 四] winutils 5/31/20172:15PM Application 2KB 
三 ( 


中 人 
中 B 
由 Pp 











下 面 的 步骤 只 在 某 些 系统 中 才 需 要 ,但 为 了 安全 起 见 ， 需要 打开 一 个 Windows 命令 行 窗口 。 
你 可 以 打开 开始 菜单 ， 找 到 Windows System ， 然 后 点 击 Command Prompt。 在 命令 行 窗口 中 
输入 cdci\winutils\bin， 来 到 我 们 存放 winutils.exe 文件 的 目录 。 如 果 使 用 air 命令 ， 就 可 以 看 到 
这 个 文件 。 输 入 winutils.exe chmod 777 \tmp\hive， 这 样 可 以 保证 所 有 运行 Spark 所 需 文件 的 权限 
是 正确 的 。 做 完 这 一 步 之 后 ， 就 可 以 关 掉 命令 行 窗口 了 。 不 管 你 信 不 信 ， 我 们 马上 就 要 做 好 了 。 




















下 面 ， 我 们 要 设置 一 些 环境 变量 ,我 会 告诉 你 在 Windows 中 该 怎么 做 。 在 Windows 10 中 ， 


你 需 


尔 需要 打开 开始 菜单 ， 找 到 Windows System|Control Panel， 打 开 Control Panel。 


Rol Windows Media Player 


区 Windows PowerShell 
内 Windows System 
Command Prompt 
Control Panel 
File Explorer 
Run 


Task Manager 








在 Control Panel 中 ,点 击 System and Security。 











Control Panel » =| 邦 | 





Adjust your computer s settings 


>) Review your computers status 
Back up your compute System and Security 
Find and fix problems | View and change system and security 
status, back up and restore file and 


(Fm Network and Inte system settings, update your 
< 











User Accounts 





名 Change account type 


Appearance and Personalization 
Change the theme 

Change desktop background 

Adjust screen resolution 


时” View network status al computer, view RAM and processor 


c 区 speed, check firewall and more. 
Choose homegroup a 


7 Hardware and Sound 


1 
5 View devices and printers 人 
Add a device o£ 
。 Ease of Access 
| Programs | Cy Let Windows suggest settings 


Uninstall a program Optimize visual display 


Clock, Language, and Region 


Change keyboards or other input methods 


bb 
全 


Get programs 
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然后 ， 点 击 System。 





Change 





System and Security 





人 Action Center 
Review your computer s status and resolve issues 时 Change User Account Control settings 
Troubleshoot common computer problems ， Restore your computer to an earlier time 


过 Windows Firewall 


Check firewall status Allow a program through Windows Firewall 
iu System 
View amo cf R Check the Windows Experience Index 
System 
View information about your 


is computer 历 Device Manager 


hardware performance and remote 


connections， or updates | View installed updates 


曙 Power Options 
Require a password when the computer wakes | Change whatthe power buttons do 


when the computer sleeps 





接 下 来 ， 在 左 侧 列表 


中 点 击 Advanced system settings。 





哮 Device Manager 





Windows edition 
图 Remote settings Windows 7 Professional 
著 System protection Copyright © 2009 Microsoft Corporation. All rights reserved. 
团 Advanced system settings Service Pack1 


Get more features with a new edition of Windows 7 





在 下 图 所 示 界 面 中 ， 


点 击 Environment Variables... 

















Computer Name | Hardware Advanced System Protection | Remote 


You must be logged on as an Administrator to make most of these changes. 
Perfomance 
Visual effects. processor scheduling., memory usage. and virtual memory 


User Profiles 
Desktop settings related to your logon 


Startup and Recovery 
System startup, system failure, and debugging information 
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可 以 看 到 有 以 下 选项 。 





Cc:\spark 
%USERPROFILE%\AppData\Local\Temp 目 
3%eUSERPROFILE%WppDataVocalVTemp 











[New... |][ Edt.. ] [peete | 








Value 
C:\Windows\system32\cmd.exe 

















这 是 典型 的 Windows 设置 环境 变量 的 方式 。 在 其 他 操作 系统 中 会 使 用 不 同 的 方式 ， 所 以 你 
要 看 看 相应 的 Spark 安装 方法 。 下 面 ， 我 们 要 设置 几 个 新 的 用 户 变 量 。 点 击 第 一 个 New... 按 钮 ， 
建立 一 个 名 为 SPARK_HOME 的 新 用 户 变 量 ,， 如 下 所 示 ， 所 有 字母 都 大 写 。 这 个 变量 指向 Spark 的 
安装 目录 ， 即 Ci\spark， 在 Variable value 中 输入 这 个 值 ， 然 后 点 击 OK。 














New User Variable x 
Variable name: | SPARK_HOME 
Variable value: | cvspard 








Browse Directory... Browse File... EE | Cancel 











我 们 也 需要 建立 一 个 JAVA_HOME 用 户 变 量 。 再 点 击 一 次 New...， 在 Variable name 中 输入 
JAVA_HOME， 它 要 指向 Java 的 安装 目录 ， 也 就 是 cjdk。 

















New User Variable Xx 
[ 

Variable name: | JAVA_HOME 

Variable value: CYydk 

















Browse Directory,… Browse File… 人 OK Cancel 
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还 需要 建立 一 个 HADOOP_HOME 用 户 变 量 ， 这 是 我 们 安装 winutils 包 的 地 方 ， 所 以 要 指向 
c:\winutils。 





| New User Variable 


x 














Variable name: HADOOP_HOME 
Variable value: | C\winutils 
Browse Directory... Browse File... Cancel 








迄今 为 止 一 切 正常 。 我 们 要 做 的 最 后 一 件 事 是 修改 路 径 ，i 


这 里 应 ; 


交 有 一 个 


PATH 环境 





Environment Variables 


User variables for Frank 





『 
Vanable Value 


MAK_ENGINEERING MIRROR  e\engineering-mirror 


| OPENIG_LIBRARY_PATH C:\Program Files\openlG\bin 


LSILVERLINING ENABLE DEB.., 1 


| 0SG_BIN C:\Program Files (x86)\OpenSceneGraph\bin 
OSGDIR C:\Program Files (x86)\OpenSceneGraph 
OSGEARTH_BIN CG el Files\OSGEARTH\bin 
| 











Edit... 


Delete 














点 击 PATH， 然 后 点 击 Edit.…， 添 加 一 个 新 路 径 ， 
添加 一 个 %JAVA_HOME%bin。 


Edit environment variable 


© \users\frank\appdata\local\enthought\canopy\user\scripts 
C:\Program Files (x86)\OpenSceneGraph\bin 

C:\Program Files (x86)\OSGEARTH\bin 

C\cygwin64\bin 

C:\Program Files (x86)\CMake 2.8\bin 

C:\Program Files (x86)\Graphviz2.38\bin 
CG\Users\Frank\AppData\LocaN\Enthought\Canopy\User 
Ci\Users\Frank\AppData\LocaN\Enthought\Canopy\Usen\Scripts 
C\Users\Frank\AppData\Roaming\npm 
E\boost\boost_1_59 O\lib64-msvc-12.0 
E\OSG\OpenSceneGraph-3.4.0\3rdParty\x64\bin 

C:\Program Files\Docker Toolbox 
%ZOOKEEPER_HOME%N\bin 

3JAVA_HOME%S\bin 


%SPARK_HOME%\bin 

















Edit 


Edit text... 


Cancel 








这 个 新 路 径 是 %SPARK _HOME%\bin， 再 
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一 般 来 说 ， 这 样 就 可 以 在 Windows 系统 的 任何 地 方 使 用 Spark 的 所 有 二 进 制 可 执行 文件 了 。 
点 击 这 个 界面 和 前 两 个 界面 中 的 OK 按钮 。 我 们 终于 完成 了 所 有 准备 工作 。 





9.2 Spark 简介 
我 们 从 一 个 比较 高 的 层次 上 介绍 Apache Spark， 看 看 它 的 定义 、 适 用 范围 和 工作 原理 。 


什么 是 Spark? 如 果 你 去 Spark 网 站 看 一 下 , 他 们 会 给 出 一 个 非常 高 级 但 又 相当 难 懂 的 定义 : 
一 个 用 于 大 规模 数据 处 理 的 快速 通用 引擎 。 它 可 以 做 数据 切片 、 数 据 切 块 和 数据 清洗 。 不 完全 是 
这 样 , 它 还 是 一 个 编写 能 够 处 理 海量 数据 的 作业 或 脚本 的 框架 , 还 可 以 将 数据 处 理 分 布 到 计算 集 
群 上 并 进行 管理 。 一 般 情况 下 ，Spatk 通过 将 数据 加 载 到 RDD ( 一 个 大 对 象 ， 称 为 弹性 分 布 式 数 
据 集 ) 上 才能 开始 工作 , 它 可 以 基于 RDD 自动 执行 像 转换 和 新 建 这 样 的 操作 ,你 可 以 认为 RDD 
就 是 个 巨大 的 数据 框 。 


Spark 的 优点 是 如 果 你 有 一 个 集群 可 用 的 话 ， 它 可 以 自动 地 、 最 优 地 将 处 理 过 程 分 散 到 整个 
计算 机 集群 中 。 你 将 不 再 受到 单机 计算 能 力 和 内 存 大 小 的 限制 ,可 以 充分 利用 一 个 计算 机 集群 的 
所 有 计算 能 力 和 存储 能 力 。 如 今 计算 成 本 非常 低廉 ， 你 可 以 租用 像 Amazon Elastic MapReduce 这 
样 的 集群 服务 。 租 用 完整 计算 机 集群 一 段 时 间 只 需要 几 美 元 , 却 可 以 完成 在 你 自己 的 电脑 上 不 可 
能 完成 的 任务 。 













































































9.2.1 可 伸缩 
Spark 如 何 实 现 可 伸缩 ? 下 面 来 更 加 详细 地 了 解 一 下 它 的 工作 原理 。 





可 伸缩 


驱动 程序 集群 管理 
一 Spark 上 下 文 (Spark, YARN) 
此 | 
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Spark 的 工作 方式 是 这 样 的 ， 你 要 先 写 一 个 驱动 程序 ， 也 就 是 与 普通 Python 脚本 无 异 的 一 小 
段 代 码 ， 只 是 代码 中 要 使 用 Spark 库 。 在 Spark 库 中 ， 你 要 定义 一 个 Spark 上 下 文 ， 也 就 是 你 进 
行 Spark 开发 时 使 用 的 根 对 象 。 


然后 ，Spark 框架 就 会 接管 并 分 发 数据 处 理 任务 。 如 果 你 在 自己 的 电脑 上 以 standalone 模式 
运行 Spark， 就 像 我 们 在 随后 几 节 中 做 的 那样 ， 那 么 显然 Spark 还 是 在 你 的 电脑 上 运行 。 但 是 ， 
如 果 Spark 运行 在 一 个 集群 管理 器 上 ， 它 就 能 识别 出 并 自动 利用 集群 。Spark 本 身 有 内 建 的 集群 
管理 器 ， 即 使 没有 安装 Hadoop ， 你 也 可 以 使 用 这 个 集群 管理 器 ,但 如 果 你 有 Hadoop 集群 ， 则 可 
以 使 用 Hadoop 集群 管理 需 。 


Hadoop 不 仅仅 是 MapReduce， 它 还 有 一 个 叫 作 YARN 的 组 件 ， 其 可 以 分 离 出 Hadoop 的 全 
部 集群 管理 功能 。Spark 可 以 与 YARN 通过 接口 连接 ， 通 过 它 以 最 优 的 方式 将 数据 处 理 过 程 的 各 
个 环节 分 布 到 Hadoop 集群 提供 的 各 种 资源 中 。 


在 集群 内 部 ,运行 着 多 个 独立 的 执行 器 任务 。 这 些 执行 器 可 能 运行 在 不 同 的 主机 上 , 也 可 能 
运行 在 同一 主机 的 不 同 CPU 内 核 上 。 每 个 执行 器 都 有 专属 于 自己 的 缓存 和 运行 任务 。 了 驱动 程序 、 
Spark 上 下 文 与 集群 管理 需 一 起 对 这 些 执行 器 进行 协调 管理 ， 并 返回 最 终结 果 。 


这 种 方式 的 优点 在 于 ， 你 的 工作 仅 限 于 编写 初始 的 一 小 段 脚本 ， 即 驱动 程序 ， 它 使 用 Spark 
上 下 文 在 一 个 较 高 的 层次 上 描述 你 想 要 对 数据 进行 的 处 理 。Spark 与 你 使 用 的 集群 管理 需 一 起 确 
定 任务 的 划分 和 分 布 方式 , 你 不 用 关心 其 中 的 具体 细 广 。 如果 出 现 问 题 , 你 可 能 得 进行 故障 处 理 ， 
确定 是 否 有 足够 的 资源 来 完成 当前 任务 ， 理 论 上 这 种 情况 是 不 太 可 能 出 现 的 。 





























































































































9.2.2 ”速度 快 


Spark 的 最 大 优点 是 什么 ?我 的 意思 是 ， 既 然 有 很 多 非常 相似 的 技术 ， 比 如 MapReduce， 为 
什么 还 需要 Spark? Spark 速度 非常 快 。 在 Spark 网 站 上 , 开发 者 们 宣称 “ 当 在 内 存 中 执行 一 项 作 
业 时 ， 它 的 速度 可 以 达到 MapReduce 的 100 倍 ， 如 果 在 磁盘 上 ， 则 可 以 达到 10 倍 。” 这 里 的 关 
键 词 是 “可 以 达到 ”， 显 然 这 个 速度 是 可 以 变化 的 。 实 际 上 ， 我 从 来 没有 见 过 比 MapReduce 快 那 
么 多 的 系统 。 一 些 精 心 编写 的 MapReduce 代码 实际 上 是 非常 有 效率 的 。 但 我 要 说 ，Spark 确实 使 
很 多 常用 操作 更 容易 完成 。MapReduce 强迫 你 将 作业 分 成 映射 器 和 归 约 器 ，Spark 的 层次 则 要 更 
高 一 些 。 在 Spark 中 ， 你 不 需要 总 是 考虑 那么 多 。 


Spark 如 此 快速 的 原因 还 部 分 在 于 它 有 一 个 DAG 引擎, 这 是 一 个 有 向 无 环 图 。 哇 ,又 是 一 个 
时 散 名 词 ， 什 么 意思 呢 ? Spark 的 工作 方式 是 ， 你 编写 一 段 脚本 来 描述 如 何 处 理 数 据 ， 并 且 有 一 
个 类 似 数据 框 的 RDD， 你 可 能 要 在 RDD 上 做 某 种 转换 ( transformation ) 操作 ,也 可 能 做 某 种 执 
行 (action ) 操作 。 但 在 对 数据 进行 执行 操作 之 前 ， 实 际 上 什么 事情 都 不 会 发 生 。 当 进行 执行 操 
作 时 ，Spark 是 这 样 想 的 :“ 咽 ,这 是 你 想 要 的 数据 最 终结 果 ， 要 想得到 这 个 最 终结 有 果 ， 我 还 需要 
做 什么 事情 呢 ? 得 到 这 个 结果 的 最 优 策 略 是 什么 呢 ? ”所 以 ,在 幕后 ，Spark 会 确定 分 解 处 理 过 
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程 的 最 佳 方式 ， 并 将 这 种 信息 分 发 出 去 以 得 到 最 终结 果 。 因 此 ， 最 关键 的 一 点 是 ，Spark 一 直 在 
等 待 , 直到 你 告诉 它 要 生成 最 终结 果 时 ， 它 才 开始 运行 起 来 ,确定 如 何 生成 最 终结 果 。 这 种 做 法 
非常 棒 ， 这 就 是 Spark 速度 如 此 之 快 的 最 主要 原因 。 


9.2.3 ”充满 活力 

Spark 是 一 项 非常 热门 的 技术 ， 而 且 出 现 的 时 间 不 是 很 长 ， 还 在 快速 发 展 和 变化 中 。 但 是 ， 
很 多 著名 公司 都 在 使 用 Spark， 比 如 Amazon 已 经 宣称 使 用 了 Spark，eBay、NASA 喷气 动力 实验 
室 、Groupon 、TripAdvisor 、Yahoo 等 也 都 在 使 用 Spark。 我 相信 还 有 很 多 公司 虽然 没有 公开 承认 ， 
但 也 在 使 用 它 ， 你 可 以 去 Spark Apache Wiki 网 页 看 一 下 。 


这 个 网 页 上 有 一 个 使 用 Spark 解决 实际 数据 问题 的 知名 公司 列表 。 如 果 你 担心 使 用 Spark 这 
种 新 技术 会 有 很 大 的 风险 , 那么 这 种 担心 完全 没 必 要 , 因为 很 多 具有 优秀 人 才 的 著名 公司 都 在 使 
用 Spark 解决 实际 的 数据 问题 。Spark 现在 已 经 非常 稳定 了 。 


9.2.4 ”易于 使 用 


Spark 并 不 难 ， 在 编程 语言 的 选择 上 ,你 可 以 使 用 Python、Java 或 Scala, 它们 都 围绕 着 前 面 
描述 过 的 一 个 理念 来 工作 ， 那 就 是 RDD。 在 后 面 的 章节 中 ， 我 们 会 详细 介绍 RDD。 





9.2.5 ”Spark 组 件 
Spark 中 有 多 个 组 件 。 通 过 核心 组 件 中 的 功能 ， 你 几乎 能 完成 任何 任务 ,但 其 他 组 件 也 非常 


有 用 。 


口 Spark Streaming: Spark Streaming 是 一 个 可 以 实时 处 理 数据 的 库 。 数 据 ( 比如 Web 日 志 
数据 ) 可 以 连续 不 断 地 流入 一 个 服务 器 , Spark Streaming 可 以 帮助 你 持续 且 实 时 地 处 理 这 
些 数据 。 
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口 Spark SQL: 它 可 以 让 你 像 在 SQL 数据 库 中 那样 处 理 数据 ， 并 可 以 发 起 SQL 查询 。 如 果 

你 对 SQL 已 经 很 熟悉 了 ， 那 么 这 是 一 个 很 棒 的 工具 。 

口 MLlib: 这 是 本 节 要 重点 介绍 的 。 它 是 一 个 机 器 学 习 程序 库 ， 可 以 让 你 执行 常用 的 机 器 学 
习 算 法 , 在 底层 由 Spark 将 处 理 过 程 分 布 到 一 个 集群 上 。 你 可 以 在 更 大 规模 的 数据 集 上 执 
行 机 器 学 习 ， 这 是 其 他 方式 不 能 实现 的 。 

口 GraphX: 不 是 用 来 制作 美观 的 图 形 与 图 表 ， 这 里 的 图 指 的 是 网 络 理论 中 的 图 。 比 如 社交 

网 络 ， 就 是 这 种 图 的 一 个 例子 。GraphX 中 提供 了 几 个 函数 ， 用 于 分 析 信息 图 的 特性 。 












































9.2.6 在 Spark 中 使 用 Python 还 是 Scala 


当 我 做 Apache Spark 培训 时 ， 确 实 建议 过 大 家 使 用 Python ， 我 这 样 做 是 有 原因 的 。 在 编写 
Spark 代码 时 ， 很 多 人 使 用 Scala， 这 是 真 的 ， 因 为 Spark 就 是 用 Scala 开发 的 。 所 以 ， 如 果 强 制 
Spark 将 Python 代码 转换 成 Scala， 并 最 终 转 换 成 Java 解释 器 命令 ， 就 会 产生 一 些 额外 的 开销 。 


然而 ， 使 用 Python 编写 代码 要 容易 得 多 ， 而 且 不 需要 编译 ， 程 序 依赖 性 管理 也 更 容易 。 你 
可 以 减少 在 程序 构建 、 运 行 和 编译 这 些 不 相关 步骤 上 花费 的 时 间 , 而 将 更 多 时 间 集 中 在 算法 和 任 
务 上 。 此 外 ,本 书 至 此 使 用 的 都 是 Python ,所 以 也 应 该 坚持 使 用 我 们 学 过 的 知识 ,一 直 使 用 Python。 
下 面 是 这 两 种 语言 优点 和 缺点 的 简单 总 结 。 
























































































































































pn | sa 
。 无 须 编译 ， 容 易 管 理 依赖 性 等 。 可 能 更 多 使 用 Spark 的 人 会 选择 Scala 
“ 较 少 的 代码 转换 开销 。Spark 是 使 用 Scala 开发 的 ， 所 以 Scala 代码 可 以 与 
。 我 们 已 经 学 习 了 Python Spark 无 颖 对 接 
。 可 以 让 我 们 将 精力 放 在 概念 上 ， 而 不 是 再 学 习 一 门 新 语言 |“ 新 特性 和 新 的 库 文 件 会 首先 支持 Scala 
































但 是 ， 如 果 你 在 实际 工作 中 进行 Spark 编程 ， 那 么 就 非常 有 可 能 遇 到 使 用 Scala 的 人 。 尽 管 
如 此 ， 你 也 不 必 过 分 担心 ， 因 为 在 Spark 中 ，Python 和 Scala 的 代码 是 非常 相似 的 ， 它 们 都 围绕 
RDD 这 个 概念 进行 编程 。 它 们 的 语法 有 一 点 不 同 ， 但 差别 不 大 。 如 果 你 知道 如 何 使 用 Python 操 
作 Spark, 那么 使 用 Scala 操作 Spark 则 完全 不 是 问题 。 下 面 是 使 用 两 种 语言 完成 同样 操作 的 一 个 
简单 例子 。 



























































对 数据 集中 数据 进行 平方 运算 的 Python 代码; 


nums = Sc.parallelize([1, 2, 3, 4]) 
Squared = nums.mapllambda x: x * x).collect!() 


对 数据 集中 数据 进行 平方 运算 的 Scala 代 码 : 


val nums = sc.parallelize (List(1, 2, 3, 4)) 
val squared = nums.map(x=> x * x).collect!() 
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这 就 是 Spark 的 基本 概念 ， 以 及 它 如 此 重要 的 原因 。Spark 功能 强大 ， 可 以 让 我 们 在 超大 规 
模 的 数据 集 上 运行 机 器 学 习 算 法 。 下 面 ， 我 们 详细 介绍 一 下 Spark 的 功能 实现 ， 以 及 弹性 分 布 式 
数据 集 的 核心 概念 。 


9.3 Spark 和 弹性 分 布 式 数据 集 


我 们 再 深入 介绍 一 下 Spark 的 工作 原理 。 先 介绍 一 下 弹性 分 布 式 数据 集 , 也 就 是 RDD, 它 是 
在 Spark 中 编程 所 使 用 的 核心 对 象 。 我 们 要 编写 一 些 简单 的 代码 ， 实 现在 Spark 中 的 编程 。 本 节 
是 Apache Spark 的 一 个 快速 教程 , 其 中 的 内 容 要 比 随后 的 几 节 难 一 些 , 但 我 会 把 例子 中 需要 理解 
的 基本 概念 解释 清楚 ， 和 希望 能 为 你 打下 一 个 恨 好 的 基础 ， 并 指明 正确 的 方向 。 


正如 前 面 提 到 的 , Spark 中 最 基本 的 对 象 称 为 RDD。 你 就 是 使 用 这 个 对 象 来 加 载 和 转换 数据 ， 
并 得 到 想 要 的 数据 处 理 结果 的 。 这 是 一 个 你 需要 了 解 的 重要 概念 。RDD 中 的 最 后 一 个 字母 表示 
数据 集 。 实 际 上 RDD 就 是 个 数据 集 ， 它 由 很 多 信息 行 组 成 ， 这 些 行 中 几乎 可 以 包括 任意 类 型 的 
数据 。 但 是 ，RDD 的 关键 在 于 R 和 第 一 个 D。 


口 弹性 (Resilent): RDD 中 弹性 的 意思 是 ， 当 RDD 运行 在 集群 上 而 集群 中 有 一 点 坏 掉 时 ， 
Spark 可 以 保证 自动 恢复 RDD,， 并 进行 重新 计算 。 眼下, 弹性 就 是 这 个 意思 。 如 果 没 有 足 
够 资源 去 完成 你 想 运 行 的 一 项 作业 ， 它 还 是 会 失败 ， 你 必须 添加 更 多 的 资源 。Spark 只 能 
从 当前 资源 中 进行 恢复 ,对 给 定 作 业 的 重 试 次 数 也 是 有 限 的 ,但 Spark 确实 做 了 最 大 努力 ， 
来 确保 在 面 对 一 个 不 稳定 集群 和 不 稳定 网 络 的 情况 下 ， 尽 量 顺畅 地 完成 任务 。 

口 分 布 式 〈Distributed) : 显然 ， RDD 是 分 布 式 的 。 使 用 Spark 的 全 部 意义 就 在 于 可 以 处 理 
大 数据 问题 ， 你 可 以 将 处 理 过 程 分 布 在 一 个 计算 机 集群 的 全 部 CPU 和 内 存 上 面 ， 充 分 发 
挥 它 们 的 能 力 。Spark 可 以 实现 横向 分 布 ， 对 于 一 个 特定 问题 ， 你 可 以 添加 尽量 多 的 计算 
机 。 问 题 规 模 越 大 ， 需 要 的 计算 机 就 越 多 ， 它 的 数量 没有 上 界 。 








































































































































































































9.3.1 SparkContext 对 象 


在 开始 Spark 脚本 时 ， 总 是 要 建立 一 个 SparkContext 对 象 ， 这 个 对 象 包 含 了 Spark 中 的 全 部 
内 容 。 它 可 以 建立 RDD 供 你 进行 处 理 ， 还 可 以 生成 在 处 理 过 程 中 要 用 到 的 各 种 对 象 。 


在 编写 Spark 程序 时 ， 其 实 不 用 对 SparkContext 考虑 太 多 ， 实 际 上 它 是 运行 在 Spark 底层 的 
一 种 对 象 。 如 果 你 在 Spark 的 交互 式 环境 中 运行 , 那么 它 会 自动 建立 一 个 名 为 sc 的 SparkContext 
对 象 , 你 可 以 使 用 这 个 对 象 建立 RDD。 但 是 , 在 独立 的 脚本 中 ,你 必须 显 式 地 创建 SparkContext 
对 象 ， 并 且 要 注意 使 用 的 参数 ， 为 你 要 告诉 SparkContext 如 何 分 布 任务 o 是 否 要 使 用 现 有 的 每 
一 个 CPU 内 核 ? 是 在 集群 上 运行 ,还 是 在 本 地 计算 机 上 以 standalone 模式 运行 ? 所 以 ， 
SparkContext 对 象 就 是 用 来 设置 Spark 运行 方式 的 基本 参数 的 。 
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9.3.2 创建 RDD 
我 们 来 看 几 个 实际 创建 RDD 的 代码 片段 ， 通 过 这 些 代 码 ， 你 会 对 Spark 有 更 多 了 解 。 
1. 使 用 Python 列表 创建 RDD 
下 面 是 一 个 非常 简单 的 例子 : 


nums = parallelize([1, 2, 3, 4]) 


如 果 想 通过 普通 的 Python 列表 创建 RDD , 可 以 调用 Spark 的 parallelize() 函数 , 这 个 也 
数 可 以 将 列表 中 的 内 容 (这 里 是 数值 1、2、3、4 ) 转换 为 一 个 名 为 nums 的 RDD 对 象 。 


这 是 最 简单 的 创建 RDD 的 方式 ， 即 通过 一 个 国定 列表 来 创建 。 列 表 可 以 是 任何 形式 ， 不 一 
是 固定 的 ， 但 这 违反 了 大 数据 的 初衷 。 我 的 意思 是 ， 如 果 使 用 一 个 数据 集 创 建 RDD 之 前 ， 要 
将 它 整个 加 载 到 内 存 的 话 ， 就 没有 什么 意义 了 。 


2. 从 文本 文件 加 载 RDD 
还 可 以 从 文本 文件 加 载 RDD， 文 本 文件 可 以 在 任意 位 置 。 


SC.textFile("file:///c:/users/frank/gobs-o-text .七 Xt") 


在 这 个 例子 中 , 我 有 一 个 巨大 的 文本 文件 ， 比 如 一 整 本 百科 全 书 或 其 他 什么 东西 。 我 们 从 本 
地 磁盘 上 读 取 文件 ,但 如 果 我 将 这 个 文件 放 在 分 布 式 的 AmazonS3 存储 上 时 ,就 可 以 使 用 一 个 s3n 
路 径 。 或 者 ， 如 果 想 访问 保存 在 分 布 式 HDFS ( Hadoop Distributed File System，Hadoop 分 布 式 文 
件 系统 ) 集群 上 的 数据 时 ， 就 要 使 用 hdfs 路 径 。 如 果 你 在 处 理 大 数据 ， 并 且 使 用 的 是 Hadoop 集 
群 ， 那 么 数据 通常 都 保存 在 HDFS 文件 系统 中 。 


这 行 代码 会 将 文本 文件 中 的 每 一 行 转换 为 RDD 中 的 一 行 。 所 以 , 你 可 以 认为 RDD 是 个 行 式 
数据 库 。 在 这 个 例子 中 , 代码 将 文本 文件 载 人 一 个 RDD ,RDD 的 每 一 行 都 包含 一 行文 本 。 然 后 ， 
我 们 可 以 在 RDD 中 进行 更 深层 次 的 处 理 ， 解 析 或 提取 数据 中 的 分 隔 符 。 但 首先 要 加 载 数据 。 


还 记得 本 书 前 面 讨论 过 的 ETL 和 ELT 吗 ? 这 就 是 一 个 非常 好 的 例子 ， 你 要 将 原始 数据 加 载 
到 一 个 系统 中 ,然后 在 系统 中 进行 数据 转换 ， 这 个 系统 也 是 用 来 查询 数据 的 系统 。 你 可 以 将 未 经 
处 理 的 原始 文本 数据 加 载 到 RDD 中 ， 然 后 使 用 Spark 的 强大 功能 来 将 其 转换 为 结构 化 数据 。 


Spark 还 可 以 和 Hive 连接 起 来 。 因 此 ， 如 果 你 的 公司 已 经 有 了 一 个 Hive 数据 库 ， 你 就 可 以 
基于 Spark 上 下 文 创建 一 个 Hive 上 下 文 了 。 这 很 棒 吧 ? 看 一 下 示例 代码 : 


hiveCtx = HiveContext (sc) 
rows = hiveCtx.sqgql ("SELECT name, age FROM users") 


你 可 以 创建 一 个 RDD， 在 这 个 例子 中 的 名 称 是 rows， 它 是 在 你 的 Hive 数据 库 中 执行 了 一 
个 SQL 查询 而 生成 的 。 
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9.3.3 更 多 创建 RDD 的 方法 


还 有 很 多 创建 RDD 的 方法 ， 比 如 可 以 通过 一 个 JDBC 连接 创建 RDD。 一 般 来 说 ,所 有 支持 
JDBC 的 数据 库 都 可 以 连接 Spark 并 创建 RDD。Cassandra、HBase 、Elasticsearch、JSON 文件 、 
CSV 文件 、 序 列 化 文件 ,以 及 像 ORC 这 样 的 多 种 压缩 文件 都 可 以 用 来 创建 RDD。 我 们 不 想 对 这 
些 文件 详细 介绍 ， 如 果 需 要 的 话 ， 你 可 以 找 相 关 书 学 习 一 下 。 重 点 是 要 知道 根据 数据 创建 一 个 
RDD 是 非常 容易 的 ， 不 论 数据 存储 在 本 地 文件 系统 上 ， 还 是 分 布 式 数据 库 上 。 


RDD 只 是 加 载 和 维护 超大 规模 数据 并 进行 实时 跟踪 的 一 种 方式 。 从 脚本 中 的 概念 上 来 看 ， 
RDD 只 是 包含 大 量 数 据 的 一 个 对 象 ， 你 不 用 考虑 数据 的 规模 ， 因 为 Spark 都 蔡 你 处 理 好 了 。 






























































9.3.4 ”RDD 操作 
现在 ,在 RDD 中 你 可 以 进行 两 种 操作 ， 即 转换 和 执行 。 
1. 转 换 


先 介绍 转换 操作 。 顾 名 思 义 ， 转 换 操 作 就 是 接受 一 个 RDD 并 将 其 中 每 一 行 按照 指定 函数 转 
换 为 新 值 的 一 种 方式 。 下 面 来 看 一 下 可 以 使 用 哪些 函数 。 


口 map() 和 flatmap(): map 和 flatmap 是 最 第 见 的 转换 函数 ,它们 都 可 以 接受 你 能 想到 
的 任何 函数 ， 这 个 函数 将 RDD 中 的 一 行 作为 输入 ， 再 输出 转换 后 的 行 。 例 如 ， 你 可 以 从 
一 个 CSV 文件 接受 初始 输入 ，map 操作 就 可 以 接受 这 个 输入 ， 然 后 基于 逗号 分 隔 符 将 其 
分 解 为 多 个 独立 的 字段 ， 并 返回 一 个 Python 列表 ， 列 表 中 是 更 加 结构 化 的 数据 ， 可 以 供 
你 进一步 处 理 。 你 可 以 将 map 操作 链接 起 来 ， 这 样 一 个 map 操作 的 输出 会 产生 一 个 新 
RDD， 你 可 以 继续 对 这 个 RDD 进行 另 一 种 转换 ， 以 此 类 推 。 再 说 一 次 ， 关 键 是 Spark 可 
以 将 这 些 转换 操作 分 布 到 集群 中 ， 所 以 你 的 RDD 可 能 部 分 在 一 台 机 器 上 进行 转换 ， 另 一 
部 分 则 在 另 一 台 机 器 上 进行 转换 。 


正如 我 所 说 的 ，map 和 flatmap 是 最 常见 的 转换 操作 。 二 者 之 间 的 唯一 区 别 是 ，map 只 
对 每 一 行 输出 一 个 值 ， 而 flatmap 允许 你 对 一 个 给 定 的 行 输 出 多 个 新 行 。 所 以 使 用 
flatmap 你 可 以 创建 一 个 比 原来 更 大 或 更 小 的 RDD。 


口 filter(): 如 果 你 想 创 建 一 个 布尔 函数 来 确定 RDD 中 的 某 一 行 是 否 应 该 保留 ， 那么 可 
以 使 用 filter () 函数 。 

Daistinct(): distinct 是 一 个 不 常用 的 转换 函数 ， 它 仅 返 回 RDD 中 唯一 不 同 的 值 。 
sample () : 这 个 函数 可 以 让 你 对 RDD 进行 随机 抽样 。 
union()、intersection()、subtract() 和 Cartesian(): 你 可 以 在 RDD 中 执行 集 
合 操作 ， 比 如 并 集 、 交 集 、 差 集 和 笛 卡 儿 积 。 
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@ 使 用 map() 
下 面 是 一 个 在 工作 中 如 何 使 用 map 函数 的 小 例子 : 


rdd = sc.parallelize([1, 2, 3, 4]) 

rdd.map (lambda x: x*x) 

如 果 我 根据 列表 1、2、3、4 创建 了 一 个 RDD, 那么 接 下 来 就 可 以 使 用 x 的 lambda 函数 接受 
每 一 行 (也 就 是 RDD 的 每 一 个 值 ) 作为 输入 , 把 它 当 作 *， 然 后 使 用 x 乘 以 计算 出 x 的 平方 来 
调用 raa.map () 了 。 如 果 查 看 一 下 这 个 RDD 的 输出 结果 ， 就 会 看 到 1]、4、9、16， 因 为 map 函 
数 接受 了 RDD 的 每 一 个 值 并 进行 了 平方 ， 然 后 保存 到 了 新 RDD 中 。 


本 书 前 面 介绍 过 lambda 函数 ， 如 果 你 不 记得 了 ， 我 们 来 复习 一 下 。lambda 也 数 就 是 行内 的 
函数 快速 定义 。rdqda.map (lambda x: x*x) 完全 等 价 于 一 个 独立 函数 定义 def squareIt (x): 


return x*x 和 rdd.map (squareIt) 。 


lambda 函数 就 是 一 个 简单 函数 的 快速 定义 , 你 可 以 使 用 它 进行 数据 转换 。 它 不 需 声明 一 个 命 
名 函数 。 这 是 函数 式 编程 的 理念 。 你 可 以 顺便 声称 自己 懂得 了 也 数 式 编程 。 但 实际 上 ，lambda 
函数 只 是 一 种 在 行内 定义 函数 的 简单 形式 , 它 可 以 作为 map () 函数 参数 的 一 部 分 ,实现 数据 转换 。 


2. 执行 
当 你 想得到 结果 时 ， 可 以 在 RDD 上 进行 执行 操作 。 下 面 是 一 些 执行 操作 的 例子 。 


口 collect () :你 可 以 在 RDD 上 调用 collect () 函数 , 它 会 返回 一 个 普通 的 Python 对 象 ， 
可 以 在 这 个 对 象 中 迭代 ， 打 印 出 最 终结 果 ， 也 可 以 保存 到 文件 中 ,或 者 执行 其 他 想 要 的 
操作 。 

口 count () : 你 还 可 以 调用 count () 函数 ， 它 会 返回 RDD 当前 状态 下 的 条 目 数量 。 

口 countByValue () : 这 个 函数 会 返回 RDD 中 每 个 唯一 值 的 数量 。 

口 take () ; 你 还 可 以 使 用 take () 从 RDD 中 抽样 ， 这 个 函数 会 从 RDD 中 随机 抽取 一 定数 

量 的 条 目 。 

D top () : 如 果 出 于 调试 的 目的 ， 你 只 是 想 看 看 RDD 中 最 前 面 的 几 个 条 目 ， 那 么 可 以 使 用 

这 个 函数 。 

口 reduce () : 最 强大 的 执行 操作 就 是 reduce () ， 它 可 以 将 具有 相同 键 的 值 组 合 在 一 起 。 
你 也 可 以 用 键 - 值 对 的 方式 来 使 用 RDD。reduce() 函数 可 以 让 你 定义 一 种 方式 ， 将 具有 
特定 键 的 所 有 值 组 合 起 来 。 这 种 思想 与 MapReduce 非常 相似 。reduce() 类似 于 
MapReduce 中 的 reducer () ，map () 则 类 似 于 mapper () 。 所 以 ， 使 用 这 些 函 数 ， 可 以 
非常 轻松 地 将 MapReduce 作业 转换 为 Spark 作业 。 


请 注意 ， 直 到 调用 一 个 执行 函数 ，Spark 中 实际 什么 都 没有 发 生 。 一 旦 你 调用 了 上 面 的 某 个 
执行 函数 ，Spark 就 开始 发 动 ,然后 通过 有 向 无 环 图 计算 出 得 到 所 需 结 果 的 最 优 方式 。 但 请 记 住 ， 
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直到 执行 操作 ， 什 么 都 没有 发 生 。 所 以 ,在 编写 Spark 脚本 时 ， 你 有 时 会 受到 困扰 ， 比 如 写 了 一 
个 打印 语句 ， 和 希望 输出 一 个 结果 ， 但 实际 上 不 会 输出 任何 结果 ， 直 到 进行 了 执行 操作 。 


这 就 是 Spark 的 简单 介绍 , 它们 都 是 Spark 编程 所 需 的 基础 知识 。 总 的 说 来 就 是 RDD 的 概念 
和 能 在 上 面 执行 的 操作 。 如 果 你 掌握 了 这 些 概 念 ， 就 可 以 编写 一 些 Spark 代码 了 。 下 面 我 们 要 介 
绍 MLlib 和 Spark 中 的 一 些 具体 功能 ， 让 你 可 以 使 用 Spark 运行 机 器 学 习 算 法 。 
































9.4 MLlib 简介 


笠 运 的 是 ， 要 在 Spark 中 进行 机 带 学 习 并 不 是 很 困难 的 事情 。Spark 有 一 个 内 置 组 件 ， 叫 作 
MLlib, 它 运行 在 Spark 内 核 之 上 。MLlib 可 以 非常 容易 地 在 大 规模 数据 集 上 执行 复杂 的 机 器 学 习 
算法 ,并 将 学 习 过 程 分 布 在 整个 计算 机 集群 上 。 这 是 非常 激动 人 心 的 事情 。 下 面 来 学 习 一 下 MLlib 
的 更 多 功能 。 






































9.4.1 MLlib 功能 
MLlib 可 以 做 些 什么 呢 ? 它 的 功能 之 一 就 是 特征 提取 。 


MLlib 的 一 项 主要 用 途 是 实现 词 频 与 逆向 文件 频率 方法 , 这 种 方法 可 以 创建 供 搜索 使 用 的 索 
引 。 本 章 后 面 会 介绍 一 个 这 样 的 例子 。MLlib 的 主要 用 途 还 包括 可 以 在 集群 上 使 用 大 规模 数据 集 
来 完成 任务 , 所 以 , 你 可 以 使 用 这 种 方法 来 建立 自己 的 Web 搜索 引擎 。 MLlib 中 不 仅 提 供 了 一 些 
基本 的 统计 函数 ， 比 如 卡 方 检验 、 色 尔 逊 相关 系数 和 斯 皮尔 曼 相 关系 数 ,还 提供 了 一 些 简单 的 函 
数 ， 比 如 最 小 值 、 最 大 值 、 均 值 和 方差 。 这 些 函 数 本 身 不 足 为 奇 , 但 激动 人 心 的 是 你 可 以 计算 出 
超大 规模 数据 集 的 方差 、 均 值 、 相 关系 数 ， 以 及 一 些 其 他 统计 量 。 而 且 ， 如 果 需 要 的 话 ，MLlib 
还 可 以 将 大 数据 集 分 解 为 不 同 的 数据 段 ， 在 整个 集群 上 运行 。 


所 以 ， 即 使 这 些 操作 本 身 并 不 是 很 有 趣 ， 但 其 规模 非常 有 价值 。MLlib 还 可 以 支持 线性 回归 
和 逻辑 回归 ， 如 果 你 需要 对 大 数据 集 拟 合 一 个 函数 并 用 来 预测 ,那么 也 是 可 以 实现 的 。MLlib 还 
支持 SVM 方法 。 我 们 介绍 了 一 些 比较 高 级 的 方法 ， 有 些 方法 可 以 通过 Spark MLlib 扩展 到 大 规 
模 数 据 集 上 。MLlib 中 内 置 了 朴素 贝 叶 斯 分 类 器 ， 还 记得 本 书 前 面 建立 的 垃圾 邮件 分 类 器 吗 ? 你 
可 以 使 用 Spark 实现 这 个 分 类 器 ， 并 扩展 到 任何 你 想 要 的 规模 。 


Spark 也 支持 我 最 喜欢 的 机 器 学 习 方 法 一 一 决策 树 ， 本 章 后 面 将 会 给 出 一 个 实际 例子 。 我 们 
还 会 介绍 大 均值 聚 类 , 使 用 Spark 和 MLlib 也 可 以 支持 大 均值 方法 , 在 大 规模 数据 集 上 进行 聚 类 。 
使 用 Spark 其 至 能 实现 主 成 分 分 析 和 奇异 值 分 解 ， 我 们 也 会 介绍 一 个 这 样 的 例子 。 最 后 ，MLlib 
中 有 一 个 内 置 的 推荐 算法 ， 称 为 Alternating Least Squares。 个 人 意见 ， 这 个 算法 会 导致 一 些 混 活 
的 结果 ， 而 且 它 太 像 一 个 黑 盒 了 ， 作 为 一 个 推荐 系统 专家 ， 我 对 这 个 算法 持 保留 态度 。 
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9.4.2 ”MLilib 特殊 数据 类 型 


MLlib 的 使 用 通常 比较 简单 ， 只 要 调用 程序 库 中 的 函数 就 可 以 了 。 但 是 ，MLlib 引入 了 几 种 
新 数据 类 型 ， 这 是 你 需要 掌握 的 ， 其 中 之 一 就 是 向 量 。 


1. 向 量 数 据 类 型 


还 记得 本 书 前 面 我 们 计算 了 电影 相似 度 并 进行 了 电影 推荐 吗 ? 特定 用 户 评价 过 的 电影 列表 
就 是 向 量 的 一 个 例子 。 向 量 可 分 两 类 ， 稀 玻 向 量 和 密集 向 量 ,我们 来 分 别 举 一 个 例子 。 世 界 上 的 
电影 千 千 万 万 ,密集 向 量 就 可 以 表示 所 有 电影 数据 ,不 管 一 个 用 户 是 否 看 过 这 些 电 影 。 例如， 如 
果 有 一 个 用 户 看 过 《玩具 总 动员 》 显然 我 要 把 他 对 《玩具 总 动员 》 的 评价 保存 下 来 ,但 如 果 他 
没有 看 过 《星球 大 战 》 我 也 要 把 他 没有 对 《星球 大 战 》 打 分 这 一 事实 保存 下 来 。 所 以 ， 我 要 使 
用 一 个 密集 向 量 为 这 些 缺 失 值 提供 存储 空间 。 稀 玻 向 量 只 保存 实际 存在 的 数据 , 它 不 在 缺失 值 上 
浪费 内 存 空间 。 所 以 ， 稀 玻 向 量 是 内 部 向 量 表示 的 一 种 更 紧凑 的 形式 ， 当 然 ， 这 会 在 数据 处 理 时 
增加 一 些 复杂 性 。 所 以 ,如果 你 知道 向 量 会 有 很 多 缺失 值 时 , 那么 稀 玻 向 量 是 一 种 很 好 的 节省 内 
存 的 方式 。 


2. 标记 点 数据 类 型 


MLlib 中 还 有 一 种 LabeledPoint 数据 类 型 , 它 也 真 的 名 副 其 实 , 就 是 一 个 带 有 菜 种 标记 的 
点 ， 标 记 以 人 类 能 够 理解 的 词语 表示 出 数据 的 含义 。 


3. 评价 数据 类 型 


最 后 ， 如 果 你 在 MLlib 中 使 用 推荐 方法 ,还 会 遇 到 Rating 数据 类 型 。 这 种 数据 类 型 可 以 表 
示 评 价值 ， 它 可 以 表示 两 种 星 级 评价 ， 取 值 范围 分 别 是 1~5 和 1~10， 并 可 以 自动 进行 产品 推荐 。 


这 就 是 你 需要 的 所 有 入 门 知 识 。 下 面 我们 来 看 一 些 真正 的 MLlib 代码 , 由 此 你 可 以 更 加 熟练 
掌握 MLlib。 































































































9.5 在 Spark 中 使 用 MLlib 实现 决策 树 


让 我 们 使 用 Spark 和 MLlib 实际 建立 一 些 决策 树 ， 这 部 分 内 容 非 党 有趣。 找到 你 保存 本 书 随 
书 文件 的 文件 夹 ， 彻底 关闭 Canopy 或 其 他 你 正在 使 用 的 Python 开发 环境 ， 因 为 我 要 保证 你 从 这 
个 目录 开始 。 找 到 sparkDecisionTree 脚本 ,双击 这 个 脚本 并 打开 Canopy。 
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SeamewD 
1from pyspark.mllib.regression import LabeledPoint 
2from pyspark.mllib.tree import DecisionTree 
3from pyspark import SparkConf, SparkContext 
4from numpy import array 


6# Boilerplate Spark stuff: 

7conf = SparkConf().setMaster("local").setAppName("SparkDecisionTree") 
8sc = SparkContext(conf = conf) 

9 


10# Some functions that convert our CSY input data into numerical 
11# features for each job candidate 

12 def binary(YN): 

13 if (YN == 'Y'): 


14 return 1 
15 else: 

16 return 0 
17 


18 def mapEducation(degree): 
19 if (degree == 'BS'): 





20 return 1 

21 elif (degree =='MS '): 
22 return 2 

23 elif (degree == “PhD'): 
24 return 3 

25 else: 

26 return 0 

27 








直到 现在 , 我 们 一 直 使 用 了 Python Notebook 来 编写 代码 , 但 在 Spark 中 这 种 方式 的 效果 不 好 。 
对 于 Spark 脚本 ， 你 需要 将 其 提交 到 Spark 基础 设施 中 ， 并 以 一 种 非常 特殊 的 方式 去 运行 ,我们 
马上 就 能 看 到 这 种 方式 。 


决策 树 代码 详解 


下 面 看 一 下 这 个 纯 Python 脚本 , 里 面 没有 IPython Notebook 中 那些 常用 的 修饰 。 我 们 详细 地 
解释 一 下 它 。 





Sparecsormee py 器 
1from pyspark.mllib.regression import LabeledPoint 
2from pyspark.mllib.tree import DecisionTree 
3 from pyspark import SparkConf, SparkContext 
4from numpy import array 
5 
6# Boilerplate Spark stuff: 
7conf = SparkConf().setMaster("local").setAppName("SparkDecisionTree") 
8sc = SparkContext(conf = conf) 
9 


10# Some functions that convert our CSY input data into numerical 
11# features for each job candidate 

12 def binary(YN): 

13 if (YN == 'Y'): 


14 return 1 
15 else: 

16 return 0 
17 


18 def mapEducation(degree): 
19 if (degree == 'BS’): 





20 return 

21 elif (degree =='MS'): 
22 return 2 

23 elif (degree == “PhD'): 
24 return 3 

25 else: 

26 return 0 
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因为 这 是 本 书 中 第 一 个 Spark 脚本 ， 所 以 我 们 慢 慢 地 解释 。 
首先 ， 从 pyspark.mllib 导入 在 Spark 中 进行 机 器 学 习 所 需 的 模块 。 


from pyspark.mllib.regression import LabeledPoint 
from pyspark.mllib.tree import DecisionTree 





我 们 需要 LapbeledPoint 类 , 这 是 DecisionTree 类 所 需要 的 数据 类 型 ，DecisionTree 类 则 
是 从 mllib.tree 导入 的 。 
然后 , 这 是 一 行 几乎 所 有 Spark 脚本 都 要 包括 的 代码 , 导入 sparkConf 和 SparkContext: 
from pyspark import SparkConf, SparkContext 


要 创建 sparkcontext 对 象 ， 就 需要 这 行 代码 。sparkcontext 是 在 Spark 中 做 所 有 事情 都 需 
要 的 根 对 象 。 


最 后 ， 还 要 从 numpy 导入 array 库 : 


from numpy import array 


是 的 ， 你 仍然 可 以 使 用 NumPy 和 scikit-learn。 重 要 的 是 需要 确定 使 用 的 所 有 机 器 上 都 安装 
了 这 些 库 。 


如 果 使 用 的 是 一 个 集群 ,那么 你 需要 确定 上 面 那些 Python 程序 库 都 安装 好 了 。 你 还 需要 了 
解 的 是 ，Spark 不 能 使 scikit-learn 中 的 方法 具有 可 伸缩 性 。 你 可 以 在 一 个 map 函数 中 调用 这 些 函 
数 , 但 它 只 能 运行 在 一 台 机 器 上 的 一 个 进程 中 。 所 以 不 要 给 这 种 函数 过 于 繁重 的 任务 ， 对 于 简单 
的 任务 ， 比 如 管理 数组 ， 它 们 还 是 完全 能 够 胜任 的 。 









































1. 创建 SparkCcontext 








下 面 开 始 创建 sparkcontext， 并 通过 sparkconf 给 它 一 个 配置 。 





conf = SparkConf () .setMaster ("local") .setApPName ("SparkDecisionTree") 


这 个 配置 对 象 的 含义 是 , 要 将 主 节点 设置 为 "local", 这 意味 着 我 们 只 是 在 本 地 桌面 上 运行 Spark。 
实际 上 我 根本 没有 在 集群 上 运行 ， 只 是 运行 在 了 一 个 进程 中 。 我 们 还 设置 了 一 个 应 用 名 称 
"SparkDecisionTree"， 随 便 你 叫 它 什么 ，Fred、Bob、Tim， 都 可 以 ， 以 后 你 在 Spark 控制 台 
中 将 会 看 到 这 个 作业 。 


然后 ， 使 用 这 个 配置 创建 sparkCcontext 对 象 : 


sc = SparkContext (conf = conf) 
这 行 代码 返回 一 个 sc 对 象 ， 可 以 用 来 创建 RDD。 
下 一 步 ， 我 们 定义 了 很 多 天 数 : 
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# 以 下 几 个 函数 用 于 将 CSV 输入 数据 转换 为 工作 候选 人 的 数值 型 特征 
def binary(YN) : 


EN 三 三 全 
return 1 
else: 
return 0 


def mapEducation (degree): 
if (degree == 'BS'): 
return 1 
elif (degree =='MS'): 
return 2 
elif (degree == 'PhD'): 
return 3 
else: 
return 0 


# 将 CSV 文件 中 的 原始 字段 列表 转换 为 MLLib 能 够 使 用 的 LabeledPoint 数据 。 所 有 数据 都 必须 是 数值 型 的 
def createLabeledPoints (fields): 

yearsExperience = int (fields[0]) 

employed = binary (fields[1]) 

previousEmployers = int (fields[2]) 

educationLevel = mapEducation (fields[3]) 

topTier = binary (fields[4]) 

interned = binary (fields[5]) 

hired = binary (fields{[6]) 





return LabeledPoint (hired, array ([yearsExperience, employed, 
previousEmployers, educationLevel, topTier, interned])) 


先 把 这 些 函数 放 在 一 边 ， 晚 些 时 候 我 们 会 回来 解释 它们 。 
2. 导入 与 清洗 数据 
来 看 一 下 这 个 脚本 中 的 第 一 段 实际 工作 代码 。 





43 rawData = sc.textFile("e:/sundog-consult/udemy/datascience/PastHires.csv") 
44header = rawData.first() 

45 rawData = rawData.filter(Llambda x:x != header) 

46 

47 # Split each line into a list based or the comma delimiters 

48 csvData = rawData.map(lambda x: x.split("”,")) 

49 

56 # Convert these lists to LabeledPoints 

51 trainingData = csvData.map(createLabeledPoints) 

多 

53# Create a test candidate, with 16 years of experience, currently employed, 
54# 3 previous employers, a BS degree, but from 3a non-top-tier school where 
55 # he or she did not do an internship. You could of course load up a whole 
56 # huge RDD of test candidates from disk, too. 

57 testCandidates = [ array([10, 1, 3, 1, 9, 0])] 

58 testData = sc,parallelize(testCandidates) 











我 们 要 做 的 第 一 件 事 情 是 加 载 PastHires.csv 文件 ， 这 也 是 本 书 前 面 做 决策 树 练习 时 使 用 的 
文件 。 
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回忆 一 下 这 个 文件 的 内 容 。 如 果 你 还 记得 的 话 , 文件 中 是 求职 者 的 多 个 属性 值 ， 以 及 是 否 录 
用 了 他 们 。 我 们 要 做 的 是 建立 一 棵 决策 树 ， 来 预测 具有 某 种 属性 的 人 能 否 被 录用 。 


下 面 快速 检查 一 下 PastHires.csv 文件 ， 可 以 用 Excel 打开 它 。 














A B C D E F G 
1 [vears exp]smployed previousetevel of ETop-tier siInterned Hired 
2 10Y 4 B5S N N 注 
3 0 N 0 BS Y Y 过 
4 7N 6 BS N N N 
5 2Y 1 MS Y N Y 
6 20N 2PhD Y N N 
7 oN 0 phD Y Y 
8 5Y 2 MS N Y Y 
9 3 N 1 BS N Y 
10 15Y 5 8BS N N Y 
11 0 N 0 BS N N N 
12 1 N 1 phD 于 N N 
3 4Y 1 8S N Y Y 
14 ON 0 phD Y N Y 











可 以 看 到 ，Excel 将 数据 导入 成 了 一 个 表格 ,但 如 果 查 看 一 下 原始 文本 文件 的 话 ， 就 可 以 知 
道 它 是 由 有 逗号 分 隔 的 值 组 成 的 。 


第 一 行 是 每 列 的 列 标题 ， 包 括 工 作 经 验 、 是 否 在 职 、 前 雇主 数 、 教 育 程度 、 是 否 名 校 毕业 、 
是 否 有 实习 经 历 , 最 后 是 要 预测 的 目标 变量 , 最 终 是 否 被 录用 。 现在 需要 将 这 些 信息 读 人 到 RDD 
中 进行 一 些 处 理 。 


回 到 我 们 的 脚本 : 


rawData = sc.textFile("e:/sundog-consult/udemy/datascience/PastHires.csv") 
header = rawData.first() 
rawData = rawData.filter(lambda x:x != header) 


首先 ， 读 入 CSYV 文件 中 的 数据 ， 并 丢弃 第 一 行 ， 因 为 它 是 列 标题 。 这 里 有 一 个 小 技巧 ,我 
们 先 将 这 个 文件 的 所 有 行 都 导入 保存 原始 数据 的 RDD 中 ， 然 后 可 以 给 它 起 个 喜欢 的 名 字 ， 我 们 
称 它 为 sc.textFile。SparkContext 有 一 个 textFile 加 数 , 它 可 以 读 入 文本 文件 并 创建 一 个 新 RDD， 
其 中 每 个 条 目 〈 也 就 是 RDD 中 的 每 一 行 ) 包括 输入 中 的 一 行 数据 。 

























































































( 居 确定 你 将 路 径 修改 成 了 文字 所 在 的 路 径 ， 否 则 这 段 代码 不 会 工作 。 


现在 ， 我 们 要 提取 出 RDD 中 的 第 一 行 数据 ， 可 以 通过 first 函数 完成 这 个 任务 。 那 么 
headerRDD 就 会 包含 一 个 条 目 ， 也 就 是 列 标题 行 。 接 下 来 ， 看 看 代码 是 怎么 做 的 。 我 们 对 包含 
CSV 文件 中 所 有 信息 的 原始 数据 使 用 filter 函数 ,并 定义 filter 函数 的 功能 是 只 保留 那些 与 
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列 标题 不 相同 的 行 。 这 段 代 码 的 功能 就 是 ， 读 入 原始 CSV 文件 ， 并 除去 第 一 行 ， 方法 是 只 允许 
保留 与 第 一 行 不 相同 的 行 , 并 将 结果 重新 返回 给 rawData RDD 变量 ,所 以 ,我们 读 人 了 rawData， 
筛选 掉 了 第 一 行 ， 并 创建 了 一 个 只 包含 数据 的 新 的 rawData。 能 跟 上 我 的 解释 吧 ? 这 并 不 复杂 。 


下 面 ， 我 们 要 使 用 一 个 map 函数 ， 然 后 要 做 的 是 将 数据 变 得 更 加 结构 化 。 现 在 ，RDD 中 的 
每 一 行 都 是 一 行 由 逗号 分 隔 开 的 文本 , 但 它 仍然 只 是 一 个 巨大 的 文本 行 , 我 们 要 将 这 个 逗号 分 隔 
值 拆 分 为 多 个 独立 的 字段 。 最 后 ， 我 们 希望 将 RDD 从 包含 大 量 信息 、 以 逗号 分 隔 的 文本 转换 为 
Python 列表 ， 其 中 每 列 都 是 独立 的 字段 。 这 就 是 下 面 的 lambda 函数 的 作用 : 


csvData = rawData.map (lambda x: x.split(",")) 


这 行 代码 调用 了 Python 内 置 函 数 split ， 它 将 会 输入 一 行 ， 然 后 使 用 逗号 进行 拆 分 ， 将 行 分 解 
为 一 个 列表 ， 其 中 每 个 列表 元 素 都 是 由 逗号 分 隔 的 字段 。 


在 map 函数 中 ， 使 用 lambda 函数 将 每 一 行 按 照 逗 号 拆 分 为 多 个 字段 ， 最 后 输出 一 个 新 RDD， 
名 为 CSVDatao 这 时 的 csvData 每 行 都 是 一 个 列表 ， 列表 中 的 每 个 元 素 都 是 来 自 于 源 数据 的 列 。 
这 样 ， 我 们 取得 了 很 大 进展 。 

要 使 用 MLlib 实现 决策 树 ， 需 要 几 个 条 件 。 首 先 ,， 输入 应 该 是 标记 点 数据 类 型 ， 而 且 实 质 应 
该 是 数值 型 。 所 以 ， 要 将 原始 数据 转换 为 MLlib 能 够 使 用 的 数据 类 型 ， 这 是 前 面 跳 过 的 
createLabeledPoints 图 数 要 做 的 事情 。 我 们 在 这 里 要 调用 它 : 


trainingData = csvData.map (createLabeledPoints) 


在 csvData 上 调用 map 因数 ， 并 将 它 传递 给 createLabeledPoints 图 数 ， 这 个 函数 会 
将 所 有 输入 的 行 转换 为 我 们 需要 的 形式 。 下 面 来 看 一 下 createLabeledPoints 函数 都 做 了 些 
什么 : 


def createLabeledPoints (fields): 
yearsExperience = int (fields[0]) 
employed = binary (fields[1]) 
previousEmployers = int (fields[2]) 
educationLevel = mapEducation (fields[3]) 
topTier = binary (fields[4]) 
interned = binary (fields[5]) 
hired = binary (fields[6]) 


























































































































return LabeledPoint (hired, array ([yearsExperience, employed, 
previousEmployers, educationLevel, topTier, interned])) 


这 有 段 代码 输入 了 一 个 字段 列表 ,为 了 让 你 能 回忆 起 都 有 哪些 字段 ， 青 来 看 一 下 .csv 文件 。 
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A B Cc D E F G 
1 [vears Explemployed previous ¢Level of E'Top-tier siInterned Hired 
2 10Y 4 BS N N 
3 ON 0Bs Y Y Y 
4 7N 6 BS N N N 
5 2Y 1 MS Y N Y 
6 20 N 2 phD Y N N 
7 0 N 0 phD 和 Y Y 
8 5Y 2 MS N Y 
9 3N 1 BS N Y Y 
10 15Y 5 8BS N N Y 
11 ON 0 BS N N N 
12 1 N 1 phD ¥ N N 
13 4Y 1 BS N Y Y 
14 0 N 0 phD Y N Y 














这 时 候 , 每 个 RDD 条 目 都 有 一 个 字段 , 它 是 一 个 Python 列表 , 其 中 第 一 个 元 素 是 工作 经 验 ， 
第 二 个 元 素 是 是 否 在 职 ， 以 此 类 推 。 现 在 的 问题 是 ， 我 们 想 把 这 个 列表 转换 为 标记 点 ， 而 且 所 
有 数据 都 应 该 是 数值 型 的 。 所 以 ,这些 Y 和 NN 都 应 该 转换 为 1 和 0。 教 育 程度 应 该 从 学 位 名 称 
转换 为 定 序 的 数值 。 例 如 ， 可 以 用 0 表示 未 受 教育 ，! 表示 学 士 ，2 表示 硕士 ，3 表示 博士 。 再 
说 一 次 ， 所 有 Y 和 N 都 应 该 转换 为 1 和 0， 因为 最 后 输入 决策 树 的 都 是 数值 型 数据 。 这 就 是 
createLabeledPoints 要 做 的 事情 。 下 面 我 们 看 一 下 它 的 代码 ， 然 后 详细 解释 一 下 : 


def createLabeledPoints (fields): 
yearsExperience = int (fields[0]) 
employed = binary (fields[1]) 
previousEmployers = int (fields[2]) 
educationLevel = mapEducation (fields[3]) 
topTier = binary (fields[4]) 
interned = binary (fields[5]) 
hired = binary (fields{[6]) 












































return LabeledPoint (hired, array ([yearsExperience, employed, 
previousEmployers, educationLevel, topTier, interned])) 


首先 , 它 要 将 stringFields 列表 转换 为 LabeledPoints, 标记 就 是 目标 变量 的 值 ， 也 就 是 这 
个 求职 者 是 否 被 录用 。 这 个 标记 点 是 0 或 1， 后面 跟着 一 个 数组 ， 数 组 中 是 我 们 所 关心 的 属性 字 
段 。 这 就 是 创建 LabeledPoints 数据 的 方法 ，DecisionTree ML1ib 类 处 理 的 就 是 这 种 数据 。 
在 上 面 的 代码 中 ， 你 可 以 看 到 我 们 将 工作 经 验 从 字符 串 转 换 成 了 整数 值 ， 对 于 所 有 Y/N 字段 ， 
都 调用 了 binary 函数 ， 这 个 函数 是 在 脚本 最 上 方 定 义 的 ， 之 前 还 没有 介绍 过 : 


def binary(YN) : 










































































i (YN 
return 1 
else: 
return 0 


它 的 作用 是 将 字符 Y 转换 成 1， 否 则 就 返回 0。 所 以 ,YY 会 被 变 成 1，N 会 被 变 成 0。 同 理 , 再 看 
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一 下 mapEducation 国 数 : 





def mapEducation (degree): 


if (degree == 'BS'): 
return 1 

elif (degree =='MS'): 
return 2 

elif (degree == 'PhD'): 
return 3 

else: 
return 0 





正如 前 面 讨论 过 的 ， 这 上 段 代 码 将 各 种 学 位 转换 为 定 序数 值 , 方法 与 WN 字段 的 转换 是 一 样 的 。 
再 提示 一 下 ， 下 面 这 段 代 码 可 以 让 我 们 运行 这 些 函 数 : 
trainingData = csvData.map (createLabeledPoints) 


这 样 , 在 对 RDD 使 用 createLabeledPoints 国 数 进行 了 映射 之 后 , 我们 得 到 了 一 个 名 为 
trainingData 的 RDD， 这 就 是 MLlib 构建 决策 树 所 需要 的 。 


3. 创建 测试 求 值 者 并 建立 决策 树 


创建 一 个 简单 的 测试 求职 者 , 这 样 就 可 以 使 用 模型 来 预测 一 个 新 人 是 否 能 被 录用 了 。 我 们 要 
创建 一 个 表示 测试 求职 者 的 数组 ， 这 个 数组 中 的 值 与 CSV 文件 中 的 字段 是 一 样 的 : 


testCandidates = [ array ([10, 1, 3, 1, 0, 0])] 


将 这 行 代码 与 CSV 文件 比较 一 下 ， 这 样 你 就 可 以 知道 数组 中 每 个 值 的 意义 了 。 












































| WE .a5 E F G 
T [rears Explemployed Previous cLevel of ETop-tier sinterned Hired 
2| 10Y a8s NN N 
3 ON 0o8s Y Y 











再 来 看 一 下 每 个 值 所 对 应 的 列 ，10、1、3、1、0、0 表示 10 年 工作 经 验 、 现 在 在 职 、3 个 前 
和 雇主、 学 士 学 位 、 非 名 校 毕业 和 无 实习 经 历 。 我 们 可 以 创建 一 个 包含 多 个 测试 求职 者 的 RDD， 
但 现在 一 个 就 够 了 。 

然后 ， 使 用 parallelize 函数 将 列表 转换 为 RDD: 

testData = sc.parallelize (testCandidates) 
一 切 正常 。 好 的 ,下 面 是 见证 奇迹 的 时 刻 : 

model = DecisionTree.trainClassifier(trainingData, numClasses=2, 


categoricalFeaturesInfo={1:2, 3:4, 4:2, 5:2}, 
impurity='gini', maxDepth=5, maxBins=32) 
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我 们 要 调用 DecisionTree.trainClassifier 函数 ， 它 就 是 建立 决策 树 的 函数 。 传人 
trainingData， 这 是 一 个 包含 LabeledPoint 数组 的 RDD。 设 定 numclasses = 2， 因 为 要 
做 的 预测 是 yes 或 no， 即 这 个 人 能 和 否 被 录用 。 下 一 个 参数 是 categoricalFeaturesInfo， 这 
是 一 个 Python 字典 ， 可 以 将 字段 映射 为 其 中 的 分 类 编号 。 如 果 一 个 字段 的 取 值 范围 是 连续 的 ， 
比如 工作 经 验 ， 那 就 不 需要 设 定 这 个 值 。 如 果 字 段 是 分 类 变量 ， 比 如 教育 水 平 ， 也 就 是 ID 为 3 
的 字段 ,那么 它 有 4 种 可 能 的 值 : 未 受 教育 、 学 士 、 硕 士 和 博士 。 对 于 所 有 yesmo 字段 ， 都 映射 
为 2 个 可 能 分 类 ， 转 换 为 1 或 0。 


继续 看 DecisionTree.trainclassifier 图 数 的 调用 , 在 测量 粹 时 , 我 们 要 使 用 ' gini' 
不 纯度 。maxDepth 的 值 为 5， 这 是 决策 树 层 数 的 上 界 ， 如 果 需 要 你 可 以 设 个 更 大 的 值 。 最 后 ， 
maxBins 是 最 大 划分 数 ， 是 一 种 调整 计算 能 力 开销 的 方式 ， 至 少 应 该 设 定 为 所 有 特征 中 分 类 的 
最 大 数目 。 请 记 住 ， 在 你 进行 执行 操作 之 前 ,什么 都 不 会 发 生 ， 所 以 ,我 们 要 使 用 这 个 模型 对 测 
试 求职 者 做 一 个 预测 。 


DecisionTree 模型 包含 了 一 棵 使 用 训练 数据 训练 出 的 决策 树 , 要 用 它 对 测试 数据 进行 预测 : 




















































































































predictions = model.predict (testData) 
print ('Hire prediction:') 
results = predictions.collect() 
for result in results: 
print (result) 


我 们 会 得 到 一 个 可 迭代 的 预测 列表 。predict 返回 一 个 普通 Python 对 象 ,可 以 进行 collect 
执行 操作 。 重 新 表述 一 下 ，collect 会 返回 模型 预测 出 的 一 个 Python 对 象 ， 我 们 可 以 在 这 个 列 
表 中 人 迭代， 并 打印 出 预测 结 

通过 toDebugString 方法 也 可 以 打印 出 决策 树 本 身 : 


print('Learned classification tree model:') 
print (model.toDebugString()) 























这 会 打印 出 决策 树 的 一 个 简单 表示 ， 你 可 以 在 头脑 中 想象 一 下 ， 也 会 是 一 种 很 棒 的 体验 。 
4. 运行 脚本 


好 的 ， 你 可 以 再 钻研 一 下 这 个 脚本 ， 如 果 准 备 好 了 ， 就 运行 一 下 。 你 不 能 直接 在 Canopy 中 
运行 。 在 Tools 菜单 中 打开 一 个 Canopy 命令 行 窗口 ， 这 会 打开 一 个 Windows 命令 行 窗口 并 准备 
好 在 Canopy 中 运行 Python 的 所 有 必 备 条 件 。 还 要 确定 工作 目录 是 你 安装 了 课程 资料 的 目录 。 














我 们 要 做 的 是 调用 spark-submit, 这 个 脚本 可 以 让 你 从 Python 中 运行 Spark 脚本 , 然后 是 
脚本 名 称 ， 即 SparkDecisionTree.py。 这 就 是 我 们 需要 做 的 。 


spark-submit SparkDecisionTree.py 








按 回 车 键 即 可 运行 。 如 果 在 集群 上 运行 并 创建 了 相应 的 Sparkconf 对 象 ， 运 行 过 程 就 会 分 布 在 
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整个 集群 上 。 但 眼下 只 是 在 单机 上 运行 。 运 行 结束 后 ， 可 以 看 到 以 下 结 





























由 上 图 可 知 ， 我 们 对 测试 求职 者 的 预测 是 他 被 录用 了 ， 而 且 还 输出 了 决策 树 本 身 ， 非 常 棒 。 
下 面 ， 再 用 Excel 打开 CSV 文件 ， 与 输出 做 一 下 比较 。 








A b [ E F 
1 |Years ExpdEmployed Previous ¢ Level of BTop-tier siinterned Hired 

tree model 10Y 4 BS N N y 
ier of depth 4 with 9 nodes glN ol8s Y y Y 
7N 6 8BS N N N 

2Y 1 MS Y N Y 

20N 2 phD Y N N 

oN 0 phD Y MY Y 

5Y 2 MS N Y Y 

3N 1 BS N Y Y 

15Y 5 8BS N N Y 

0N 0 BS N N N 

1 N 1 phD Y N N 

4Y 1 BS N Y Y 

0N 0 phD Y N Y 











仔细 看 一 下 这 棵 树 。 在 输出 的 决策 树 中 , 有 4 层 9 个 节点 。 如 果 我 们 能 记得 这 些 字段 的 意义 ， 
那么 可 以 这 样 来 解释 这 棵 决策 树 : 如 果 特 征 1 是 0, 这 就 表示 求职 者 现在 不 在 职 , 然后 看 特征 5。 
特征 列表 是 从 0 开始 的 ， 所 以 特征 5 是 是 否 有 实习 经 历 。 可 以 这 样 解释 : 这 个 人 现在 不 在 职 , 没 
有 实习 经 历 ,没有 工作 经 验 , 具有 学 士 学 位 ,我 们 不 会 录用 他 。 然 后 来 看 else 子 句 。 如 果 这 个 人 
有 高 级 学 位 ， 那 么 根据 训练 数据 ， 就 可 以 录用 他 。 根 据 原始 数据 ， 你 可 以 找 出 这 些 特 征 ID 表示 
哪个 字段 ,还 记得 吗 , 计数 是 从 0 开始 的 。 请 注意 列表 中 所 有 分 类 特征 都 用 布尔 值 表示 可 能 的 分 
类 ， 连 续 型 数据 则 表示 为 数值 的 大 于 或 小 于 关系 。 


这 就 是 使 用 Spark 和 MLlib 构建 的 一 棵 决策 树 , 它 可 以 工作 , 而 且 非 常 有 效 。 多 人 么 棒 的 工作 。 

















































































































9.6 在 Spark 中 实现 K 均 值 聚 类 


再 看 一 个 在 Spark 中 使 用 MLlib 的 例子 一 一 k 均值 聚 类 。 和 我 们 在 决策 树 中 所 做 的 一 样 ， 这 
个 例子 与 使 用 scikit-learn 实现 的 是 一 样 的 ， 只 是 要 在 Spark 中 实现 ,使 得 它 可 以 扩展 到 大 规模 数 
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据 集 上 。 同 样 ， 确 保 关 掉 所 有 其 他 窗口 ， 然 后 找到 本 书 资料 所 在 的 文件 夹 ， 打 开 SparkKMeans 
脚本 ， 仔 细 研 究 一 下 里 面 的 内 容 。 





7K = 5 

8 

9# Boilerplate Spark stuff. 

10 conf = SparkConf().setMaster("local").setAppName("SparkKMeans") 
11sc = SparkContext(conf = conf) 

12 

13 #Create fake income/age clusters for NW people in K clusters 

14 def createClusteredData(N, k): 

15 random. seed(10) 

16 pointsPerCluster = float(N)/k 


17 X= [] 

18 for i in range (k): 

19 incomeCentroid = random.uniform(20000.0，200000.0) 

20 ageCentroid = random.uniform(20.0, 70.0) 

21 for j in range(int(pointsPerCluster)): 

22 X.append([random.normal(incomeCentroid, 100600.0), random.normal(ageCentroid, 2.0)]) 








23 X = array(X) 




















还 是 从 一 些 模板 化 的 内 容 开 始 。 


from pyspark.mllib.clustering import KMeans 
from numpy import array, random 

from math import sart 

from pyspark import SparkConf, SparkContext 
from sklearn.preprocessing import scale 


我 们 要 从 ML1ip 的 clustering 包 中 导入 KMeans 包 ， 以 及 从 numpy 中 导入 array 和 
random， 因 为 这 归根 结 底 是 个 Python 脚本 ，ML1ib 经 常 使 用 numpy 数组 作为 输入 。 我 们 要 导 
和 人 sqrt 函数 和 常见 的 模板 内 容 , 几乎 每 次 都 要 从 pyspark 导入 SparkConf 和 SparkContext。 
我 们 也 要 从 scikit-learn 中 导入 scale 函数 。 同 样 ， 你 可 以 使 用 scikit-learn， 只 要 保证 
在 每 一 台 运 行 作业 的 计算 机 上 都 安装 了 _scikit-learn。 不 要 一 厢 情 愿 地 认为 scikit-learn 
因为 运行 在 Spark 上 就 可 以 自动 扩展 。 但 是 ， 因 为 我 们 只 使 用 缩放 函数 ， 所 以 没 问 题 。 好 的 ， 继 
续 做 一 些 设置 工作 。 


先 创建 一 个 全 局 变量 : 

eh 
在 这 个 例子 中 ， 设 定 磊 值 为 $S， 以 此 来 运行 下 均 值 聚 类 ， 也 就 是 说 我 们 需要 5 个 艇 。 然 后 建立 一 
个 Sparkconf 对 象 ， 设 定 脚本 仅 在 桌面 上 运行 : 


conf = SparkConf () .setMaster("local") .setAppName ("SparkKMeans") 
sc = SparkContext (conf = conf) 


设 定 应 用 的 名 称 为 sparkKkMeans， 并 创建 一 个 sparkcontext 对 象 , 用 来 创建 在 本 机 运行 
的 RDD。 先 跳 过 createclusteredData 函数 ， 直 接 来 到 第 一 行 运行 代码 。 


data = sc.parallelize(scale(createClusteredData(100, K))) 

















ty 
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= 


(1) 我 们 首先 要 做 的 事情 是 通过 parallelize 函数 使 用 虚拟 出 的 数据 来 创建 RDD ,create- 
ClusteredData 限 数 的 作用 就 是 创建 虚拟 数据 。 通 常 ， 可 以 创建 100 个 数据 点 ， 围 绕 在 个 中 
心 点 附近 ,这 与 本 书 前 面 练习 均值 聚 类 时 使 用 的 代码 非常 相似 。 如 果 你 想 复习 一 下 ,就 回去 看 
看 那 一 章 。 基 本 上 , 我 们 的 做 法 就 是 先 创 建 几 个 随机 的 中 心 点 , 然后 围绕 中 心 点 创建 服从 正 态 分 
布 的 年 龄 和 收入 数据 。 所 以 , 我 们 要 做 的 就 是 基于 年 龄 和 收入 对 人 员 进 行 聚 类 ， 而 聚 类 使 用 的 数 
据 是 虚构 的 。 这 行 代码 会 返回 一 个 numpy 数组 ， 其 中 包含 我 们 的 虚构 数据 。 


(2) 如 果 createclustereqData 返回 了 结果 , 就 对 这 个 结果 调用 scale 水 数 , 这 可 以 保证 
年 龄 和 收入 数据 在 规模 上 是 可 以 比较 的 。 还 记得 我 们 学 习 过 的 数据 标准 化 那 部 分 吗 ?” 这 就 是 一 个 
能 说 明 数 据 标准 化 重要 性 的 例子 。 我 们 使 用 scale 对 数据 进行 标准 化 , 以 便 能 得 到 一 个 更 好 的 
均值 聚 类 结果 。 


(3) 最 后 ,使 用 parallelize 国 数 对 上 一 步 的 数组 列表 进行 并 行 化 ， 生 成 RDD。 我 们 的 
数据 RDD 包含 了 所 有 虚构 数据 ， 我 们 需要 做 的 甚至 比 决策 树 还 要 简单 ， 就 是 在 训练 数据 上 调用 


KMeans .traino 




































































clusters = KMeans.train(data, K, maxIterations=10, 
initializationMode="random") 


我 们 传人 想 要 的 复 的 个 数 ， 也 就 是 大 的 值 。 还 要 传人 表示 最 大 人 迭代 次 数 的 参数 ， 然 后 告诉 函 
数 使 用 均值 从 类 的 默认 初始 化 模式 ， 即 随机 选取 簇 的 初始 中 心 点 , 再 开始 迭代 。 它 的 返回 
值 就 是 我 们 需要 的 模型 ,我们 称 其 为 clusters。 

好 了 ， 可 以 练习 聚 类 了 。 


先 打印 出 每 个 点 所 在 的 复 。 所 以 ， 要 将 原始 数据 使 用 lambda 函数 进行 一 下 转换 : 


resultRDD = data.map(lambda point: clusters.predict (point)).cache() 


这 个 函数 将 每 个 点 都 转换 为 根据 模型 预测 出 的 篮 编 号 。 我 们 在 包含 数据 点 的 RDD 上 调用 
clusters.predict 函数 ， 确 定 大 均值 模型 为 每 个 数据 点 分 配 了 哪个 簇 ， 然后 将 结果 保存 在 
resultRDD 中 。 下 面 解释 一 下 上 面 代 码 中 对 cache 函数 的 调用 。 

在 使 用 Spark 时 ， 一 个 重要 的 事情 就 是 ， 每 次 在 一 个 RDD 上 调用 多 个 执行 操作 时 ， 都 要 先 
对 RDD 进行 缓存 。 这 非常 重要 , 因为 当 你 在 RDD 上 调用 一 个 执行 操作 时 ，Spark 就 会 全 速 运转 ， 
找 出 这 个 操作 的 DAG， 并 确定 如 何 最 优 地 得 到 结果 。 

Spark 会 全 速 运转 并 调动 一 切 资源 去 得 到 结果 。 所以, 如 果 你 在 同一 个 RDD 上 调用 了 两 个 不 
同 的 执行 操作 ，Spark 就 会 对 RDD 求 值 两 次 。 如 果 想 避免 这 种 多 余 的 工作 , 则 可 以 将 RDD 缓存 ， 
确保 不 会 对 它 进行 多 次 重新 计算 。 

通过 上 面 的 操作 ， 我 们 确信 下 面 两 个 操作 可 以 顺利 进行 : 
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print ("Counts by value:") 
counts = resultRDD.countByValue() 
print (counts) 


print ("Cluster assignments:") 
results = resultRDD.collect () 
print (results) 


为 了 得 到 一 个 实际 的 结果 ， 我 们 要 调用 countByValue 函数 ， 它 的 作用 是 返回 一 个 表示 每 
个 簇 中 有 多 少 个 点 的 RDD。 还 记得 吗 ， 现 在 的 resultRDD 将 每 个 数据 点 映射 成 了 其 所 在 的 簇 ， 
所 以 我 们 可 以 使 用 countByValue 计算 出 每 个 复 ID 对 应 多 少 个 点 。 然后 就 可 以 轻松 打印 出 这 个 
列表 了 。 通 过 对 RDD 调用 collect 函数 ， 也 可 以 看 到 RDD 中 原本 的 结果 ， 这 样 就 可 以 知道 每 
个 数据 点 属于 哪个 徐 ， 我 们 将 这 个 结果 也 打印 出 来 。 












































集合 内 误差 平方 和 


如 何 来 度量 聚 类 的 效果 呢 ? 有 一 个 指标 称 为 集合 内 误差 平方 和 (〈 Within Set Sum Of Squared 
Error )， 哇 ， 听 起 来 真 气派 ! 这 个 名 称 太 长 了 ， 所 以 我 们 使 用 它 的 缩写 ， 即 WSSSE。 先 找 出 数据 
集中 每 个 数据 点 到 它 所 在 簇 的 最 终 中 心 点 的 距离 , 计算 出 数据 点 与 中 心 点 之 间 的 误差 , 再 进行 平 
方 ， 最 后 加 总 起 来 ， 就 可 以 求 出 整个 数据 集 的 WSSSE。 这 是 个 衡量 每 个 数据 点 到 中 心 点 远近 的 
指标 。 显 然 ， 如 有 果 模 型 中 有 很 多 误差 ,数据 点 就 会 离 中 心 点 比较 远 , 我们 就 可 能 需要 一 个 更 大 的 
k 值 。 可 以 使 用 以 下 代码 计算 出 WSSSE 并 打印 出 来 : 

def, Srior (Dom) 


center = clusters.centers[clusters.predict (point)] 
return sqrt (sum([x**2 for x in (point - center)])) 












































WSSSE = data.map(lambda point: error(point)).reduce(lambda x, y: x + y) 
print ("Within Set Sum of Squared Error = " + Str (WSSSE)) 


先 定义 error 函数 ， 计 算 每 个 点 的 误差 平方 。 它 计算 出 每 个 簇 中 的 点 到 中 心 点 的 距离 ， 并 
加 总 起 来 。 要 算出 WSSSE, 我 们 要 对 源 数据 调用 一 个 lambda 函数 , 算出 它 到 每 个 中 心 点 的 误差 ， 
然后 就 可 以 进行 一 系列 操作 了 。 


首先 ， 调 用 map 函数 计算 出 每 个 点 的 误差 ， 然 后 ， 为 了 得 到 表示 整个 数据 集 误 差 的 最 后 总 
和 ， 对 前 面 的 结果 调用 reduce 函数 , 也 就 是 说 ,我们 使 用 aata.map 计算 出 每 个 点 的 误差 ， 然 
后 使 用 reduce 将 所 有 误差 加 在 一 起 。 这 就 是 那个 简单 的 lambda 函数 的 作用 。 基 本 上 就 是 如 下 
说 法 的 一 个 时 泼 表 述 :“ 我 要 把 RDD 中 的 所 有 内 容 加 起 来 得 到 一 个 最 终结 果 ”。reduce 会 处 理 
整个 RDD， 每 次 处 理 其 中 两 个 条 目 ， 使 用 我 们 提供 的 函数 将 这 两 个 条 目 组 合 起 来 。 我 们 提供 的 
函数 是 “将 我 们 要 组 合 在 一 起 的 两 行 直 接 加 起 来 ”。 


如 果 对 RDD 中 每 个 条 目 都 这 样 处 理 ， 就 能 得 到 一 个 最 终 的 总 和 。 要 得 到 多 个 值 的 总 和 ， 这 
种 方法 似乎 太 复杂 了 。 但 是 , 如 果 需 要 的 话 , 通过 这 种 方法 , 我 们 可 以 保证 将 这 个 操作 分 布 出 去 
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我 们 可 以 在 一 台 机 器 上 计算 一 部 分 数据 的 总 和 , 在 男 一 台 机 器 上 计算 另 一 部 分 数据 的 总 和 ,然后 
将 这 两 个 总 和 组 合 在 一 起 得 到 最 终结 果 。reduce 函数 要 知道 的 是 ， 如 何 能 得 到 这 个 操作 的 任意 
两 个 中 间 结 果 ， 再 把 它们 组 合 起 来 ? 
再 一 次 ， 稍 停 片 刻 ， 仔 细 琢 麻 一 下 。 这 部 分 没什么 新 奇 的 内 容 ， 但 有 几 个 重点 : 

口 如 果 你 想 确保 在 对 一 个 RDD 使 用 多 次 时 避免 不 必要 的 重复 计算 ， 就 可 以 引入 缓存 ; 
口 引入 了 reduce 国 数 的 使 用 ; 

口 使 用 了 很 多 有 趣 的 映射 器 函数 ， 你 可 以 从 这 个 例子 中 学 到 很 多 。 


归根 结 底 ， 我 们 是 要 做 大 均值 聚 类 ， 所 以 下 面 来 运行 一 下 代码 。 




































































运行 代码 


在 Tools 菜单 中 点 击 Canopy Command Prompt 菜 单项， 输入 以 下 命令 : 





spark-submit SparkKMeans .DY 


按 一 下 回 车 , 松 开 后 运行 代码 。 在 这 种 情况 下 , 你 需要 等 待 一 段 时 间 才 能 看 见 结果 出 现在 你 面前 ， 
但 应 该 能 看 到 下 面 的 输出 。 









































成 功 了 , 大 棒 了 ! 想 一 下 我 们 想 要 的 输出 。 首 先 应 该 是 每 个 篮 中 数据 点 的 数量 。 结 果 告 诉 我 
们 , 徐 0 中 有 21 个 点 , 簇 1 中 有 20 个 点， 以 此 类 推 。 这 个 结果 分 布 相当 均匀 ， 是 个 好 现象 。 


然后 , 我 们 打印 出 了 为 每 个 数据 点 分 配 的 簇 。 如 果 你 还 记得 的 话 , 我 们 构造 的 原始 数据 是 按 
照 一 定 顺序 的 ， 所 以 ， 当 看 到 所 有 的 3 都 在 一 起 ， 所 有 的 1 都 在 一 起 ， 所 有 的 4 都 在 一 起 时 , 我 
们 非常 满意 。 尽 管 0 和 2 有 一 些 混 涌 ,， 但 总 体 来 看 ， 这 个 结果 还 是 很 不 错 的 ， 它 找 出 了 我 们 在 构 
造 原始 数据 时 建立 的 簇 。 


最 后 ,我 们 计算 出 了 WSSSE， 在 这 个 例子 中 ， 它 是 19.97。 如 果 你 想 更 多 地 练习 一 下 ， 我 非 
常 鼓励 你 去 做 。 可 以 看 一 下 ， 如 果 增 加 或 减 小 值 ， 误 差 指标 会 有 什么 变化 ,再 思考 一 下 为 什么 9 
会 有 这 种 变化 。 还 可 以 试验 下 ， 如 果 不 进 行 数据 标准 化 会 怎么 样 ， 数 据 标准 化 真 的 对 结果 有 显 
著 影 响 吗 ?” 它 真 的 很 重要 吗 ? 你 也 可 以 修改 一 下 模型 中 的 maxIteration 参数 ， 好 好 体会 一 下 
它 对 模型 最 终结 果 的 影响 以 及 它 的 重要 人 性。 所以， 尽情 去 练习 吧 。 这 就 是 使 用 MLlib 和 Spark 以 
可 侍 缩 方式 实现 的 上 均值 聚 类 ， 非 常 棒 的 内 容 。 
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9.7 TF-IDF 


最 后 一 个 MLlib 例子 是 TF-IDF， 也 就 是 词 频 - 逆 向 文档 频率 ， 它 是 很 多 搜索 算法 的 基础 。 依 
然 如 故 ， 这 个 名 词 听 起 来 复杂 ， 实 际 却 没有 那么 难 。 


首先 ， 我们 介绍 一 下 TF-IDF 的 概念 ， 以 及 如 何 使 用 它 来 解决 搜索 问题 。 我 们 要 用 TF-IDF 
做 的 事情 是 使 用 Apache Spark 创建 一 个 最 基本 的 维基 百科 搜索 引擎 。 多 棒 的 事情 ， 马 上 开始 。 


TF-IDF ( Term Frequency-Inverse Document Frequency ) 表示 词 频 -逆向 文档 频率 ， 这 是 两 个 
紧密 关联 的 指标 ， 用 来 在 大 量 文 档 中 进行 搜索 以 及 确定 特定 词语 与 文档 之 间 的 关系 。 例 如 ， 维 基 
百科 上 的 每 一 篇 文章 都 可 以 关联 一 个 词 频 ; 为 了 表示 每 个 词 出 现在 文档 中 的 次 数 , 互联 网 上 的 每 
个 页 面 也 可 以 关联 一 个 词 频 。 听 起 来 挺 高 级 ， 但 实际 上 是 相当 简单 的 概念 。 


口 词 频 表示 一 个 特定 词语 在 特定 文档 中 出 现 的 频率 。 在 一 个 Web 页 面 中 ， 在 一 篇 维基 百科 
文章 中 ， 一 个 特定 词语 在 文档 中 出 现 的 有 多 频繁 ? 这 个 词语 的 出 现 次 数 占 整个 文档 词语 
总 数 的 比例 是 多 少 ? 这 就 是 词 频 要 解决 的 问题 。 

口 文档 频率 的 意义 也 差不多 ,但 它 表示 词语 在 整个 语料库 中 出 现 的 频率 ， 即 一 个 词语 在 我 
们 的 所 有 文档 中 、 所 有 Web 页 面 中 ， 以 及 所 有 维基 百科 文章 中 出 现 的 有 多 频繁 。 例 如 ， 
像 “a”“the” 这 样 的 常用 词 会 有 一 个 非常 高 的 文档 频率 ， 可 以 预见 它们 也 应 该 有 一 个 非 
常 高 的 词 频 ， 但 这 并 不 一 定 意味 着 它们 与 文档 相关 。 


你 可 以 看 到 我 们 是 如 何 使 用 这 两 个 指标 的 。 如 果 我 们 有 一 个 特定 的 词语 , 它 有 一 个 非常 高 的 
词 频 和 一 个 非常 低 的 文档 频率 , 那么 这 两 个 频率 的 比值 就 可 以 为 我 们 提供 一 个 指标 , 来 衡量 这 个 
词语 与 文档 之 间 的 相关 性 。 如 果 我 们 看 到 一 个 词语 在 特定 文档 中 出 现 的 频率 非常 高 , 但 在 整个 文 
档 空 间 中 出 现 的 不 是 很 频繁 ,那么 就 可 以 知道 ， 这 个 词语 可 能 表达 了 这 篇 特定 文章 的 特殊 意义 ， 
可 能 这 就 是 这 篇 文章 实际 要 表达 的 意义 。 


所 以 , 这 就 是 TF-IDF, 它 表 示 词 频 -逆向 文档 频率 , 只 是 词 频 除 以 文档 频率 的 一 种 时 瞩 说 法 ， 








































































































只 是 与 出 现在 整个 文档 库 中 的 频率 相 比 , 出 现在 某 个 文档 中 的 频率 有 多 频繁 的 一 种 时 区 说 法 。 非 
常 简单 。 


9.7.1 TF-IDF 实战 


在 实际 工作 中 ，TF-IDF 的 用 法 与 前 面 有 些 差别 。 例 如 ， 我 们 使 用 的 是 逆向 文档 频率 的 对 数 
值 , 而 不 是 原始 值 , 这 是 因为 实际 中 的 词 频 差不多 是 指数 分 布 的 。 所 以 , 在 给 定 整 体 词语 数量 时 ， 
通过 取 对 数 ， 可 以 更 好 地 表示 词语 权重 。 显然, 这 种 方法 也 有 一 些 局 限 性 ， 其 中 之 一 就 是 我 们 假 
设 文档 是 一 个 词 袋 , 词语 本 身 之 间 没 有 联系 。 实际 上 显然 不 是 这 样 的 , 词语 的 解析 是 一 种 非常 重 
要 的 工作 ， 因 为 你 必须 处 理 同 义 词 、 不 同时 态 、 缩 写 、 大 小 写 、 拼 写 错误 等 情况 。 这 又 说 明了 这 
个 问题 : 作为 一 名 数据 科学 家 ,数据 清理 占据 了 工作 的 大 部 分 时 间 , 特别 是 在 进行 自然 语言 处 理 
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时 。 幸 运 的 是 , 现在 有 一 些 现成 的 程序 可 以 帮助 你 来 做 这 些 事 , 但 数据 清理 仍然 是 个 问题 , 它 还 


是 会 影响 结果 的 质量 。 


另 一 个 使 用 TF-IDF 的 技巧 是 ， 为 了 节省 空间 和 提高 效率 ， 不 存储 带 有 词 频 和 逆向 文档 频率 
的 词语 字符 串 , 而 是 将 每 个 词语 都 映射 为 一 个 数值 ， 称 为 散 列 值 。 做 法 是 使 用 一 个 函数 去 处 理 任 
意 的 词语 , 根据 词语 字母 的 不 同 , 以 一 种 非常 均匀 的 方式 为 词语 分 配 一 组 一 定 范围 内 的 数字 。 这 
样 ， 对 于 “represented” 这 个 词 ， 可 以 给 它 分 配 一 个 散 列 值 10， 从 此 以 后 ， 就 可 以 用 10 来 表示 
“represented”。 如 果 散 列 值 的 空间 不 够 大 ， 就 会 出 现 不 同 词语 用 同一 数值 表示 的 情况 。 这 事 听 起 
来 很 严重 ， 实 际 不 然 ， 你 要 确定 有 一 个 非常 大 的 散 列 空间 ,这样 就 基本 不 会 发 生 这 种 情况 。 上 述 
情况 称 为 散 列 碰撞 。 它 确实 会 引起 问题 ， 但 实际 上 ， 英 语 中 人 们 常用 的 词 就 是 那么 多 ，100 000 
个 值 的 散 列 空间 就 够 用 了 。 


大 规模 搜索 是 非常 困难 的 ， 如 果 你 想 搜索 整个 维基 百科 , 那么 就 应 该 在 集群 上 运行 。 为 了 便 
于 讨论 ,我 们 只 使 用 维基 百科 数据 的 一 个 小 样本 在 桌面 上 运行 。 
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9.7.2 使 用 TF-IDF 


怎样 把 它 变 成 实际 的 搜索 问题 呢 ? 如 果 我 们 有 了 TF-IDF， 就 有 了 衡量 每 个 词语 和 每 个 文档 
之 间 关 联 度 的 指标 。 能 使 用 它 做 什么 呢 ? 我 们 能 做 的 是 ， 计 算出 整个 文档 库 中 每 一 个 词语 的 
TF-IDF， 然 后 对 特定 名 词 和 特定 词语 进行 搜索 。 比 如 要 搜索 “What Wikipedia article in my set of 
Wikipedia articles is most relevant to Gettysburg?” 我 们 可 以 按照 所 有 文档 与 Gettysburg 这 个 词 之 间 
的 TF-IDF 分 数 对 文档 进行 排序 ， 然 后 取 最 上 面 的 结果 ， 作 为 对 Gettysburg 这 个 词 的 搜索 结 
确定 搜索 关键 词 ， 计 算 TF-IDF， 取 最 上 面 的 结果 ， 就 是 这 样 。 


显然 , 现实 世界 中 的 搜索 要 复杂 得 多 。Google 有 一 个 专门 负责 搜索 的 团队 ,他 们 的 方法 更 加 
复杂 。 我 们 这 里 的 确 能 给 你 一 个 有 效 的 搜索 引擎 算法 ， 并 能 得 到 合理 的 结果 。 下 面 来 看 看 它 是 如 
何 实现 的 。 









































9.8 使 用 Spark MLlib 搜索 维基 百科 


我 们 要 使 用 Apache Spark 和 MLlib 建立 一 个 实际 有 效 的 搜索 算法 来 搜索 部 分 维基 百科 。 要 完 
成 这 个 任务 ， 所 需 代 码 不 超过 50 行 。 这 是 本 书 中 最 激动 人 心 的 工作 ! 


进入 课程 资料 目录 ， 用 Canopy 打开 TF-IDF.py 文件 ， 代 码 如 下 。 
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ie Edit View Search Run Tools Window Help 
"BE ~ 站 的 和 pe 
ro 
1ifrom pyspark import SparkConf, SparkContext 
2from pyspark.mllib.feature import HashingTF 
3from pyspark.mllib.feature import IDF 
的 
5# Boilerplate Spark stuff: 
6 conf = SparkConf () .setMaster("local") .setApPName("SparkTFIDF”) 
7sc = SparkContext(conf = conf) 
8 
9# Load documents (one per 1ine) 
10rawData = sc.textFile("e:/sundog-consult/Udemy/DataScience/subset-small.tsv") 
11fields = rawData.map(lambda x: x.split("\t")) 
12 documents = fields.map(lambda x: x[3],split(” ")) 
13 
14 # Store the document names for later: 
15 documentNames = fields.map(lambda x: x[1]) 
16 
17 # Now hash the words in each document to their term frequencies: 
18 hashingTF = HashingTF(100000) #71806K hash buckets Jjust to save some memory 
19 tf = hashingTF. transform(documents) 


20 

21# At this point we have an RDD of sparse vectors representing each document 
22# where each value maps to the term frequency of each unique hash value. 

23 


24# Let’s compute the TF*IDF of each term in each document: 
25 tf.cache() 

26 idf = IDF(minDocFreq=2) .fit(tf) 

27 tfidf = idf.transform(tf) 








先 暂 停 , 再 重申 一 下 , 我 们 要 建立 一 个 实际 有 效 的 搜索 算法 , 包括 几 个 使 用 算法 的 例子 在 内 ， 
不 到 50 行 代码 ， 并 且 是 可 伸缩 的 。 我 们 可 以 在 集群 上 运行 这 个 算法 。 真 是 激动 人 心 ， 下 面 来 仔 
细 看 一 下 代码 。 

















9.8.1 导入 语句 


首先 导入 sparkconf 和 SparkContext 程序 库 ， 因 为 在 Python 中 运行 任何 Spark 脚本 都 
需要 这 两 个 库 。 然 后 导入 HashingTF 库 和 IDF 库 。 代 码 如 下 。 


from pyspark import SparkConf, SparkContext 
from pyspark.mllib.feature import HashingTF 
from pyspark.mllib.feature import IDF 


以 上 内 容 是 用 来 计算 文档 库 中 词 频 (TF ) 和 逆向 文档 频率 (IDF ) 的 。 


9.8.2 创建 初始 RDD 
从 模板 化 的 Spark 内 容 开 始 ， 创 建 一 个 本 地 Sparkconfiguration 对 象 和 sparkContext 
对 象 ， 然 后 创建 初始 RDD。 


conf = SparkConf () .setMaster("local") .setAppName ("SparkTFIDF") 
sc = SparkContext (conf = conf) 
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接 下 来 ， 根 据 subset-small.tsv 文件 使 用 sparkcontext 对 象 创建 一 个 RDD。 


rawData = sc.textFile("e:/sundog-consult/Udemy/DataScience/subset-small.tsv") 


这 个 文件 中 是 由 制 表 符 分 隔 的 值 ， 它 是 维基 百科 文章 的 一 个 小 规模 抽样 。 同 样 ， 你 需要 修改 上 面 
代码 中 的 路 径 ， 将 其 改 为 本 书 资料 所 在 的 目录 。 

这 段 代 码 会 返回 一 个 RDD， 其 中 每 一 行 都 是 一 个 文档 。TSYV 文件 中 每 一 行 都 是 一 篇 完整 的 
维基 百科 文档 ， 每 篇 文档 都 被 制 表 符 分 成 了 多 个 字段 ， 字 段 中 还 有 每 篇 文章 的 元 数据 。 

下 一 步 ， 拆 分 文档 : 

fields = rawData.map (lambda x: x.split("\t")) 
我 们 要 按照 制 表 符 分 隔 符 将 每 篇 文档 拆 分 成 一 个 Python 列表 , 并 创建 一 个 新 的 RDD, 名 为 fields， 
其 中 不 是 原始 的 输入 数据 ， 而 是 由 输入 数据 中 的 字段 组 成 的 Python 列表 。 

最 后 ， 我 们 要 对 数据 进行 映射 ， 接 受 每 个 字段 列表 ， 提 取出 索引 为 3 的 字段 x[3] ， 这 个 字 
段 就 是 文章 主体 ， 也 就 是 实际 的 文章 文本 ， 我 们 逐次 使 用 空格 对 其 进行 拆 分 : 

documents = fields.map(lambda x: x[3] .split(" ")) 
x[3] 提 取出 每 篇 维基 百科 文章 的 主体 ,并 将 其 拆 分 为 一 个 词语 列表 。documents 是 一 个 新 RDD， 
其 中 每 个 条 目 都 是 一 篇 文档 , 包含 的 是 出 现在 该 文档 中 的 词语 列表 。 当 要 得 出 最 后 结果 时 , 我 们 
就 知道 如 何 来 调用 这 些 文档 了 。 

还 要 创建 一 个 新 RDD 来 保存 这 些 文档 的 名 称 : 


documentNames = fields.map(lambda x: x[1]) 


这 行 代码 使 用 同样 的 RDD， 即 fieldqs， 并 使 用 map 函数 提取 文档 名 称 ， 即 索引 值 为 1 的 字段 。 


于 是 , 我 们 创建 了 两 个 RDD, 一 个 是 documents, 其 包含 了 出 现在 每 篇 文章 中 的 词语 列表 ; 
另 一 个 是 documentNames， 其 包含 了 每 篇 文档 的 名 称 。 而 且 ， 这 两 个 RDD 的 顺序 是 相同 的 ， 
所 以 ， 以 后 我 们 可 以 将 它们 合并 ， 查 看 一 个 特定 文档 的 名 称 。 
















































































9.8.3 创建 并 转换 HashingTF 对 象 
下 面 是 见证 奇迹 的 时 刻 。 我 们 要 做 的 第 一 件 事 情 是 创建 一 个 HashingTF 对 象 ， 使 用 的 参数 
是 100 000。 这 意味 着 要 对 每 个 词语 都 进行 散 列 变换 ， 将 其 转换 为 100 000 个 数值 型 数据 之 一 : 
hashingTF = HashingTF(100000) 
我 们 没有 将 词语 表示 为 字符 串 ( 这 样 做 效率 太 低 )， 而 是 尽 可 能 均匀 地 为 每 个 词语 分 配 了 一 个 散 
列 值 。 我 们 使 用 100 000 个 散 列 值 以 供 选 择 。 一 般 来 说 ， 这 样 就 可 以 将 词语 映射 为 数值 了 。 
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然后 ， 调 用 hashingTF 的 transform 图 数 ， 参 数 为 包含 词语 列表 的 RDD ， 也 就 是 


documents: 

tf = hashingTF.transform(documents) 
这 行 代码 会 将 每 篇 文档 的 词语 列表 转换 为 一 个 散 列 值 列表 , 这 是 一 个 数值 列表 , 每 个 数值 代表 一 
个 词语 。 

这 实际 上 是 将 文档 表示 成 了 一 个 稀 玻 向 量 ， 以 节约 更 多 空间 。 所 以 , 我们 不 仅 将 所 有 词语 转 
换 成 了 数值 ,还 除 掉 了 缺失 数据 。 如 果 一 个 词语 没有 出 现在 一 篇 文档 中 , 那么 我 们 不 保存 这 种 情 
况 ， 这 样 更 节约 空间 。 




















9.8.4 计算 TF-IDF 得 分 
要 实际 计算 出 每 个 词语 在 每 篇 文档 中 的 TF-IDF 得 分 ， 首 先 要 缓存 tf 这 个 RDD。 
tf.cache() 


这 样 做 是 因为 我 们 要 多 次 使 用 它 。 然 后 , 使 用 IDF (minDocFreq=2), 它 的 含义 是 要 忽略 掉 出 现 
次 数 不 足 两 次 的 任何 词语 : 

idf = IDF (minDocFreq=2) .fit (tf) 

对 tf 调用 fit， 然 后 在 下 一 行 代码 中 ， 对 tf 调用 transform: 


tfidf = idf.transform(tf) 















































这 样 ， 就 得 到 了 一 个 RDD， 其 内 容 是 每 个 词语 在 每 篇 文档 中 的 TF-IDF 得 分 。 


9.8.5 ”使 用 维基 百科 搜索 引擎 算法 

我 们 试 着 使 用 一 下 这 个 算法 ， 搜 索 与 Gettysburg 这 个 词语 最 匹配 的 文章 。 如 果 你 不 熟悉 美国 
历史 ， 那 么 我 告诉 你 ， 亚伯拉罕. 林肯 在 此 做 了 一 个 著名 的 演讲 。 可 以 使 用 以 下 代码 将 Gettysburg 
转换 为 一 个 散 列 值 : 


gettysburgTF = hashingTF.transform(["Gettysburg"]) 
gettysburgHashValue = int (gettysburgTF.indices[0]) 


然后 ， 提 取出 这 个 散 列 值 与 每 篇 文档 的 TF-IDF 得 分 ， 保 存在 一 个 新 的 RDD 中 : 


gettysburgRelevance = tfidf.map(lambda x: x[gettysburgHashValue]) 


这 行 代 码 的 作用 是 ， 提 取出 Gettysburg 所 映射 的 散 列 值 与 每 篇 文档 的 TF-IDF 得 分 ， 并 保存 在 一 
个 名 为 gettysburgRelevance 的 新 RDD 中 。 
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接 下 来 ， 把 它 与 dgocumentNames 结合 一 下 ， 以 便 我 们 理解 结 


zippedResults = gettysburgRelevance.zip (documentNames) 


最 后 ， 打 印 出 答案 : 


print ("Best document for Gettysburg is:") 
print (zippedResults.max()) 


9.8.6 ”运行 算法 

运行 一 下 代码 , 看 看 结果 如 何 。 通常 , 要 运行 Spark 脚本 , 我 们 不 使 用 点 击 运行 图 标的 方法 ， 
而 是 使 用 Tools>Canopy Command Prompt 菜单 项 。 打 开 命 令 行 窗口 后 , 输入 spark-submit 
TF-IDF .py， 然 后 运行 。 


我 们 只 是 取 了 一 小 部 分 数据 ， 尽管 它 是 维基 百科 的 一 个 小 样本 , 但 数据 量 还 是 很 大 ， 所 以 要 
等 待 一 段 时 间 。 下 面 来 看 看 最 后 与 Gettysburg 最 为 匹配 的 文档 是 什么 , 什么 样 的 文档 具有 最 高 的 
TF-IDF 得 分 ? 


就 是 亚伯拉罕 : 林肯 ! 这 不 是 很 奇妙 吗 ? 我 们 刚刚 建立 了 一 个 实际 的 搜索 引 敬 ,而 且 非 常 奏 
效 ， 只 用 了 几 行 代码 。 


使 用 Spark、MLlib 以 及 TF-IDF， 我 们 完成 了 一 个 实际 有 效 的 搜索 引擎 ， 可 以 搜索 一 部 分 维 
基 百 科 数 据 。 亮 点 就 是 如 果 我 们 需要 ， 如 果 我 们 有 足够 大 的 集群 去 运行 算法 , 那么 可 以 将 它 扩 展 
到 全 部 维基 数据 上 。 


希望 我 引起 了 你 对 Spark 的 兴趣 ， 你 可 以 看 到 ， 它 是 如 何 被 用 来 以 分 布 式 的 方式 解决 一 个 非 
党 复杂 的 机 融 学 习 问 题 的 。 所以, 它 是 一 种 非常 重要 的 工具 , 我 不 想 当 你 学 习 完 这 本 数据 科学 书 
后 ， 还 对 如 何 使 用 Spark 解决 大 数据 问题 缺乏 概念 。 当 你 的 需求 不 能 被 一 台 计 算 机 实现 时 ， 请 记 
住 ， 还 有 Spatk 随时 待命 。 


































































































9.9 使 用 Spark 2.0 中 的 MLlib 数据 框 API 
这 一 章 本 来 是 为 Spark 1 所 写 的 , 下 面 介绍 一 下 Spark 2 中 有 哪些 新 特性 , 以 及 MLlib 中 有 哪 
些 新 功能 。 


Spark 2 的 主要 特点 就 是 将 Dataframe 和 Dataset 变 得 越 来 越 统一 ,有 时 候 二 者 可 以 互 换 使 用 。 
从 技术 角度 看 ，Dataframe 就 是 一 个 行 对 象 的 Dataset， 它 有 些 像 RDD ， 唯 一 区 别 是 RDD 可 以 包 
含 非 结构 化 数据 ， 而 Dataset 有 一 个 定义 好 的 模式 。 


Dataset 事先 清楚 地 知道 每 行 中 有 哪些 列 ， 以 及 每 个 列 的 类 型 。 因 为 事先 知道 Dataset 的 确 
切 结构 ， 所 以 Spark 可 以 更 加 有 效 地 进行 优化 。 我 们 还 可 以 将 Dataset 看 作 一 个 微型 数据 库 ， 
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当然 ,如 果 它 运行 在 集群 上 , 就 是 一 个 大 型 数据 库 , 这 意味 着 我 们 可 以 对 其 进行 SQL 查询 或 类 似 的 
操作 。 


Spark 提供 了 更 高 级 的 API， 以 供 我 们 查询 和 分 析 其 集群 上 的 大 规模 数据 集 。 这 是 非常 强大 
的 功能 ， 它 速度 更 快 ， 优 化 机 会 更 多 ， 而 且 更 容易 使 用 。 











Spark 2.0 MLilib 如 何 工 作 


在 升级 到 Spark 2.0 时，MLlib 将 数据 框 作为 了 基本 API。 这 是 待 实现 的 方法 ,下面 来 看 一 下 
它 是 如 何 工 作 的 。 请 打开 SparkLinearRegression.py 文件 ， 如 下 图 所 示 ， 我 们 分 析 一 下 。 








Wo Boe Tors Wben Hoy 
| 二 

1from __future__ import print_function 

2 

3from pyspark.ml.regression import LinearRegression 
和 4 


5from pyspark.sql import SparkSession 
6from pyspark.ml.linalg import Vectors 
7 


Sif _name__ == "__main__": 
10 # Create a SparkSession (Note, the config section is only for Windows!) 
11 spark = SparkSession.builder.config("spark.sql.warehouse.dir"”, “file:///C:/temp”).appName("LinearRegression"). getOrCreate() 
12 
13 #¥ Load up our dat3 and convert If to the format WMLib expects 
14 tL = spark CO textEils0 regression. txt") 
15 data = inputLines.map(lambda x; x,split(”,")),.map(lambda x: (float{x[0]), Yectors.dense{float(x[1])))) 
16 
kd » Converet this ROD to 2 Dataframe 
18 colNames = ["label", "features"] 
19 df = data. toDF(colNames) 
20 
21 ec re 3r 3565S my to 
aara E E34 2, 

















如 你 所 见 ， 这 里 使 用 ml 代替 了 ML1ib， 因 为 有 了 基于 数据 框 的 新 API。 


实现 线性 回归 

在 这 个 例子 中 , 我 们 要 实现 线性 回归 , 这 是 一 种 用 数据 集合 拟 合 直 线 的 方法 。 在 这 个 练习 中 ， 
我 们 要 虚构 一 些 二 维 的 数据 ， 并 使 用 线性 模型 拟 合 一 条 直线 。 

我 们 要 将 数据 分 成 两 个 集合 ,一 个 用 来 构建 模型 ， 另 一 个 用 来 评价 模型 ,还 要 看 看 这 个 线性 
模型 预测 真实 值 的 实际 效果 。 首 先 ， 在 Spark 2 中 ， 如 果 你 使 用 Sparksor 接口 和 Dataset， 就 
要 使 用 SparkSession 对 象 ， 而 不 是 SparkContexto 要 建立 SparkSession, 可 以 使 用 以 下 
代码 : 


spark = SparkSession.builder.config("spark.sql.warehouse.dir", 
"file:///C:/temp") .appName ("LinearRegression") .getOrCreate() 
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请 注意 ， 中 间 的 代码 只 是 在 Windows 和 Spark 2.0 中 才 需 要 。 老 实 讲 ， 这 只 是 一 种 
解决 缺陷 的 权宜 之 计 。 如 果 你 使 用 的 是 Windows 操作 系统 ， 那 么 请 一 定 建立 一 个 
3 Cxtemp 文件 夹 。 如 果 你 想 运行 代码 ， 现 在 就 去 建立 这 个 文件 夹 吧 。 如 果 你 使 用 的 
不 是 Windows 操 作 系 统 , 则 可 以 删 掉 中 间 的 部 分 ,只 保留 :spark = SparkSession. 
builder.appName ("LinearRegression") .getOrCreate()。 


好 的 ， 我 们 建立 了 一 个 spark 会 话 ， 并 设 定 了 appName 和 getorcreate () 方 法 。 


非常 有 趣 ， 因 为 一 旦 建立 了 Spark 会话 ， 如 果 它 非 正常 终止 ,那么 你 可 以 在 下 次 运行 时 恢复 
它 。 所 以 ， 如 果 我 们 有 一 个 检查 点 目录 ， 就 可 以 使 用 getorcreate 从 中 断 之 处 重新 开始 。 


下 面 ， 我 们 使 用 课程 资料 中 的 regression.txt 文件 : 


inputLines = spark.sparkContext.textFile("regression.txt") 
这 是 个 文本 文件 ,包含 两 列 用 逗号 分 隔 的 数据 ， 这 两 列 数据 是 线性 相关 的 ， 带 有 一 点 随机 性 。 你 
可 以 随便 认为 它们 表示 什么 东西 。 例如， 可 以 假设 它们 表示 身高 和 体重 , 这 时 ,第 一 列 就 表示 身 
高 ， 第 二 列 就 表示 体重 。 
































在 机 器 学 习 的 术语 中 , 我 们 经 常 使 用 标记 和 特征 。 标 记 通 常 是 指 努 力 去 预测 的 事 
情 ; 特征 是 数据 的 一 组 已 知 属 性 ， 用 来 进行 预测 。 
在 这 个 例子 中 , 身高 可 以 是 标记 , 特征 就 是 体重 。 我 们 要 根据 体重 来 预测 身高 。 怎 样 都 可 以 ， 
这 并 不 重要 ,它们 都 是 进行 了 标准 化 的 数据 , 范围 在 -1 和 1 之 间 。 这 些 数 据 没 有 实际 意义 的 单位 ， 
你 可 以 将 它们 看 作 任意 数据 。 
要 在 MLlib 中 使 用 这 些 数据 ， 需 要 进行 一 下 格式 转换 : 


data = inputLines.map (lambda x: x.split(",")) .map(lambda x: (float (x[0]), 
Vectors.dense(float (x[1])))) 


第 一 件 要 做 的 事情 就 是 使 用 map 函数 拆 分 数据 ， 将 每 一 行 拆 分 成 列表 中 的 两 个 不 同 的 值 。 
然后 ， 再 将 它们 映射 为 MLlib 需要 的 格式 。 标 记 是 浮 点 型 的 ， 特 征 数据 是 一 个 密集 向 量 。 
这 个 例子 中 只 有 一 个 特征 数据 ， 就 是 体重 ， 所 以 向 量 中 只 有 一 个 值 ， 尽 管 这 样 ，MLlib 线性 
回归 模型 也 要 求 密集 向 量 。 这 就 像 旧 版 API 中 的 labeledPoint， 只 是 我 们 必须 自 己 去 实现 。 
下 一 步 ， 要 给 这 两 列 赋予 一 个 名 称 。 实 现 这 个 操作 的 语法 如 下 : | 


colNames = ["label", "features"] 
df = data.toDF (colNames) 


我 们 要 告诉 MLlib ， 生 成 的 RDD 中 的 两 列 分 别 对 应 着 标记 和 特征 ， 然 后 ， 将 RDD 转换 为 
DataFrame 对 象 。 这 时 ， 我 们 有 了 一 个 数据 框 ， 如 果 你 愿意 ， 也 可 称 其 为 包含 两 列 的 Dataset。 这 
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两 列 就 是 标记 和 特征 ,标记 是 浮 点 型 的 身高 ,特征 列 是 一 个 浮 点 型 密集 向 量 , 表示 体重 。 这 就 是 





MLlib 要 求 的 格式 ，MLlib 对 于 类 型 的 要 求 非常 严格 ， 所 以 一 定 要 注意 数据 类 型 。 


型 ， 


下 面 ， 就 像 前 面 说 的 ， 把 数据 分 成 两 半 。 
trainTest = df.randomSplit([0.5, 0.5]) 


trainingDF = trainTest [0] 
testDF = trainTest[1] 


我 们 进行 一 个 50/50 的 训练 数据 与 测试 数据 划分 。 代 码 会 返回 两 个 数据 框 ,一 个 用 来 创建 模 
男 一 个 用 来 评价 模型 。 


下 面 用 几 个 标准 参数 创建 实际 的 线性 回归 模型 。 


lir = LinearRegression (maxIter=10, regParam=0.3, elasticNetParam=0.8) 


用 1ir = LinearRegression 创建 一 个 模型 ， 然 后 使 用 训练 数据 拟 合 模 型 : 


model = lir.fit (trainingDF) 
































样 就 得 到 了 一 个 可 以 用 来 预测 的 模型 。 


进行 一 下 预测 。 
fullPredictions = model.transform(testDF) .cache() 


我 们 要 使 用 model .transform(testDF) 进行 预测 ， 在 测试 数据 集 上 根据 体重 预测 身高 。 











标记 已 经 有 了 ， 就 是 实际 的 、 正 确 的 身高 。 这 行 代码 会 在 数据 框 中 添加 一 个 新 列 ， 名 为 
predictions， 这 就 是 基于 线性 模型 预测 出 的 值 。 




















我 们 要 把 这 些 结果 缓存 起 来 , 现在 可 以 将 它们 提取 出 来 做 一 个 对 比 。 我 们 要 取出 预测 列 , 就 





像 在 SQL 中 使 用 select 操作 一 样 。 然 后 对 数据 框 进行 转换 ， 从 中 取出 RDD， 并 映射 为 一 个 普 
通 旧 版 RDD， 其 中 包含 的 都 是 浮 点 型 的 身高 数据 : 

















predictions = fullpPredictions.select ("prediction") .rdd.map (lambda x: x[0]) 


这 些 是 身高 的 预测 值 。 接 下 来 ， 我 们 从 标记 列 中 取出 身高 的 实际 值 : 


labels = fullPredictions.select("1Llapbel").rdadq.map(Lambda x: x[0]) 


最 后 ， 把 预测 值 和 实际 值 打 包 在 一 起 ， 并 列 地 打印 出 来 ， 看 看 预测 的 效果 : 


predictionAndLabel = predictions.zip(labels) .collect() 























for prediction in predictionAndLabel: 
print (prediction) 


SPDark .stop () 


这 种 方法 有 些 复杂 了 , 我 这 样 做 是 要 和 前 一 个 例子 保持 一 致 。 一 个 更 简单 的 方法 是 将 预测 和 
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标记 一 起 选取 到 一 个 RDD 中 ， 然 后 同时 映射 这 两 个 列 ， 这 样 就 不 用 进 








法 都 是 可 以 的 。 你 还 要 注意 ， 在 代码 结束 时 要 停止 Spark 会 话 。 


行 打 包 操 作 了 。 这 两 种 方 


来 看 一 下 模型 是 否 有 效 。 进 入 Tools 菜单 ， 选 择 Canopy Command Prompt 菜单 项 , 输入 


spark-submit SparkLinearRegression.py， 看 看 会 发 生 什 么 。 





运行 Dataset 的 API 有 一 个 稍 长 的 准备 时 间 ， 不 过 一 旦 准备 好 了 ， 速 








结果 了 。 


\0.8643234408131227， 
中 1202268137 C3 


7 8404971 
.39255147035 





> 240 ph 
.4924865029712902， 这 


度 就 非常 快 。 好 的 ， 有 














我 们 将 实际 值 和 预测 值 并 列 地 放 在 了 一 起 , 可 以 看 出 这 个 结果 还 不 算 太 糟 糕 。 实 际 值 和 预测 


























值 大 概 差不多 。 这 就 是 Spark 2.0 完成 的 线性 回归 模型 ， 使 用 的 是 基于 数据 框 的 新 MLlib API。 随 


着 Spakk 和 MLlib 的 发 展 ， 你 会 越 来 越 多 地 用 到 这 些 API， 所 以 ， 如 果 F 











计算 任务 实际 地 分 布 到 整个 集群 中 的 方法 。 这 是 一 种 非常 强大 的 技术 。 


9.10 小结 


可 能 的 话 ， 要 尽 可 能 地 使 


用 这 种 API。 好 的 ， 这 就 是 Spark 中 的 Mi 一 种 为 了 在 大 数据 集 上 进行 机 器 学 习 而 将 大 规模 


本 章 首 先 介 绍 了 Spark 的 安装 方法 , 然后 深入 介绍 了 Spark 与 RDD 是 如 何 工作 的 , 还 详细 讨 
论 了 在 进行 各 种 操作 时 不 同 的 RDD 创建 方法 。 之 后 介绍 了 MLlib, 并 以 在 Spark 








天 均值 聚 类 为 例 ， 详 细 介 绍 了 MLlib 的 使 用 方法 。 接 下 来 主要 介绍 了 如 何 使 用 TF-IDF 仅仅 通 


几 行 代码 实现 一 个 搜索 引擎。 最 后 介绍 了 Spark 2.0 的 一 些 新 功能 


下 一 章 将 介绍 A/B 测试 和 实验 设计 。 





测试 与 实验 设计 











本 章 将 学 习 A/B 测试 的 概念 ， 还 将 介绍 :检验 、! 统 计量 和 疡 值 ， 这 些 都 是 非常 有 用 的 工具 ， 
可 以 用 来 确定 结果 是 真实 的 还 是 因 随 机 变动 而 产生 的 。 我们 将 介绍 一 些 实际 的 例子 , 并 动手 编写 
Python 代码 来 计算 1 统计 量 和 p 值 。 


在 此 之 后 , 我 们 将 研究 一 下 你 应 该 花 多 少时 间 做 实验 才能 得 出 一 个 结论 。 最 后 会 讨论 一 些 潜 
在 问题 ， 它 们 可 以 损害 你 的 实验 结果 ， 导 致 你 得 出 错误 的 结论 。 


本 章 将 介绍 以 下 内 容 : 


口 A/B 测试 的 概念 ; 

口 检验 和 p 值 ; 

口 使 用 Python 计算 t 统 计量 和 p 值 ; 
口 确定 实验 的 时 间 ; 

口 A/B 测试 的 一 些 问 题 。 














10.1 A/B 测试 的 概念 


如 果 你 在 一 家 互联 网 公司 从 事 数 据 科学 工作 ,那么 很 可 能 会 被 要 求 花 些 时 间 来 分 析 A/B 测试 
的 结果 。A/B 测试 基本 上 就 是 一 个 网 站 上 的 受 控 实验 ， 以 用 来 测量 特定 变化 的 影响 效果 。 下 面 我 
们 就 介绍 一 下 A/B 测试 的 概念 和 工作 原理 。 

















10.1.1 A/B 测试 

如 果 你 是 一 家 大 型 互联 网 科技 公司 的 数据 科学 家 , 那么 一 定 会 做 A/B 测试 , 因为 人 们 需要 在 
网 站 上 进行 各 种 实验 并 度量 实验 的 结果 ， 而 这 种 实验 并 不 像 想象 的 那么 简单 。 

什么 是 AB 测试 呢 ? 它 是 一 种 受 控 实 验 ， 经 常 在 网 站 上 进行 。 它 也 可 以 在 其 他 环境 中 进行 ， 
但 通常 我 们 讨论 的 都 是 网 站 上 的 实验 , 要 测试 的 是 对 网 站 做 出 某 种 改变 后 的 效果 , 并 和 改变 以 前 
进行 对 比 。 
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你 应 该 有 一 批 人 作为 对 照 组 ， 查 看 旧 网 站 ， 还 要 有 一 批 人 作为 测试 组 ， 查 看 修改 后 的 网 站 。 
A/B 测试 的 主要 思想 就 是 度量 这 两 组 人 员 之 间 的 行为 差异 ， 并 使 用 行为 数据 确定 修改 是 否 有 益 。 

例如 ,我 有 一 个 商业 网 站 , 我 在 这 个 网 站 上 出 售 软件 许可 。 现 在 我 的 网 页 上 有 一 个 美观 友好 
的 检 色 按钮 ， 人们 点 击 这 个 按钮 就 可 以 购买 许可 ,如 左 图 所 示 。 如 果 我 把 这 个 按钮 的 颜色 改 为 蓝 
色 ， 如 右 图 所 示 ， 会 怎么 样 呢 ? 
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在 这 个 例子 中 ， 如 果 我 想 知 道 蓝 色 按钮 是 不 是 更 好 ， 应 该 怎么 做 ? 


觉 上 说 , 蓝 色 可 能 会 更 加 吸引 人 们 的 注意 力 , 但 人 们 也 可 能 比较 习惯 橙色 按钮 而 更 容易 去 
点 击 它 ， 这 两 种 情况 都 说 得 通 ， 不 ee 所 以 , 我 们 自己 的 偏好 和 成 见 并 不 重要 ,真正 重要 的 是 
人 们 对 这 种 网 站 上 的 修改 的 反应 ， 这 就 是 AB 测试 要 完成 的 任务 。 


A/B 测试 会 将 人 们 分 为 查看 橙色 按钮 的 人 和 查看 蓝 色 按钮 的 人 , 然后 我 们 就 可 以 测量 这 两 组 

人 的 行为 以 及 他 们 之 间 的 差别 ， 再 根据 这 些 数据 决定 使 用 哪 种 颜色 的 按钮 。 

你 可 以 使 用 A/B 测试 测试 以 下 内 容 。 

口 设计 的 调整 : 可 以 是 按钮 颜色 、 按 钮 位 置 以 及 页 面 布 局 的 变化 。 

口 U1 流 : 或 许 你 要 修改 一 下 网 站 上 的 购买 流程 和 付款 流程 ， 然 后 测量 实际 的 效果 。 

口 算法 的 调整 : 考虑 第 6 章 中 电影 推荐 的 例子 ， 或 许可 以 测试 一 下 一 种 算法 与 另 一 种 算法 
之 间 的 差别 。 在 测试 时 ， 我 们 不 依赖 于 误差 指标 和 训练 /测试 方法 ， 真 正 关 心 的 是 提高 购 
买 量 、 租 金 或 其 他 网 站 行为 。 
em A/B 测试 可 以 让 我 们 直接 测量 出 算法 对 我 们 所 关心 的 最 终结 果 的 影响 ， 而 不 仅仅 是 我 

们 预测 他 人 看 过 的 电影 的 能 力 。 
@ 一 切 能 影响 用 户 与 网 站 交互 方式 的 事情 都 值得 测试 ， 比 如 能 使 网 站 速度 更 快 的 方法 ， 
或 其 他 任何 事情 。 

口 定价 调整 : 这 个 事情 是 有 争议 的 。 理 论 上 ， 你 可 以 使 用 A/B 测试 去 试验 不 同 的 价格 ， 
看 看 它 是 否 真 的 能 够 提高 销售 量 以 抵消 价格 之 间 的 差异 ， 但 是 ， 这 种 测试 使 用 时 要 非常 
小 心 。 




































































里 如 果 客 户 知 道 了 其 他 人 员 在 没有 合理 原因 的 情况 下 获得 了 比 自己 更 好 的 价格 ， 那 么 他 
们 会 对 你 非常 不 爽 。 请 注意 ， 进 行 价格 测试 可 能 会 得 到 一 个 非常 负面 的 反应 ， 你 绝对 
不 想 让 自己 处 于 那 种 境地 。 





10.1.2 A/B 测试 的 转化 效果 测量 


当 在 网 站 上 设计 一 个 实验 时 ,首先 要 确定 的 是 , 你 要 优化 的 目标 是 什么 ? 促使 你 做 出 改动 的 
真正 原因 是 什么 ? 这些 问 题 不 是 一 直 都 有 明确 答案 的 。 或 许 是 为 了 提高 人 们 的 消费 额 , 即 我 们 的 
总 收入 。 说 起 消费 额 ,就 要 涉及 方差 这 个 问题 , 但 是 如 果 你 有 足够 的 数据 ， 那么 还 是 能 够 多 次 收 
敛 到 这 个 指标 的 。 


然而 ,总 收入 或 许 不 是 你 要 优化 的 目标 。 你 可 能 只 是 为 了 获取 市 场 份额 ,正在 故意 亏本 销售 
一 些 产品 ， 这 时 的 定价 策略 就 比 只 追求 总 收入 要 复杂 得 多 。 


或 许 你 真正 想 测量 的 是 利润 ,而 利润 测量 可 能 是 非常 复杂 的 , 因为 很 多 事情 都 要 归结 于 一 件 
商品 能 赚 多 少 钱 ， 有 时 候 这 个 问题 是 不 确定 的 。 如 果 为 了 市 场 份额 降价 出 售 , 那么 在 实验 时 你 还 
要 对 这 种 方式 可 能 的 效果 进行 折算 。 或 者 你 只 关心 网 站 上 的 广告 点 击 率 , 也 可 能 为 了 降低 方差 而 
关心 订单 数量 ， 这 些 都 是 很 正常 的 。 
最 重要 的 一 点 是 , 必须 与 要 进行 测试 的 领域 内 的 企业 所 有 者 进行 讨论 , 确定 他 们 
0 的 优化 目标 ,他 们 的 评价 方式 是 什么 ? 界定 成 功 的 标准 是 什么 ? 关键 绩效 指标 是 
什么 ? 要 确定 我 们 测量 的 确实 是 对 他 们 非常 重要 的 东西 。 


你 可 以 一 次 测量 多 个 指标 ， 不 用 只 选 一 种 ， 并 同时 通报 多 个 不 同 指标 的 效果 : 
口 收入 ; 
口 利润 ; 
口 点 击 率 ; 
口 广告 浏览 量 。 
如 果 这 些 指标 都 向 好 的 方向 变化 , 那 就 是 一 个 强烈 的 信号 , 说 明 这 种 修改 具有 多 方面 的 积极 
效果 。 为 什么 要 局 限于 一 个 指标 呢 ? 一 定 要 事先 确定 在 实验 成 功 的 标准 中 哪 一 项 是 最 重要 的 。 
如 何 归 结 转化 效果 
另 一 个 需要 注意 的 问题 是 如 何 归结 下 游 改 变 所 造成 的 转化 效果 。 如 果 你 做 出 的 改变 对 要 测试 
的 用 户 行为 没有 造成 立 笔 见 影 的 效果 ， 那 么 问题 就 有 些 复杂 了 。 
假设 我 们 修改 了 网 页 A 的 一 个 按钮 的 颜色 ， 然 后 用 户 去 了 网 页 B 做 了 一 些 事情 ， 最 终 在 网 
页 C 买 了 一 些 东 西 。 


那么 这 个 购买 行为 应 归功 于 谁 呢 ? 网 页 A, 网 页 B, 还 是 它们 之 间 的 某 些 东西 ? 应 该 按照 用 
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户 完成 转化 动作 所 需 的 点 击 数 来 折算 对 这 个 转化 的 贡献 吗 ? 应 该 将 看 到 改变 之 后 没有 立刻 发 生 
的 转化 动作 都 丢弃 掉 吗 ? 这 些 事情 都 非常 复杂 , 很 难说 清楚 转化 事实 在 多 大 程度 上 是 由 我 们 要 测 
量 的 改变 所 引起 的 ， 这 非常 容易 产生 具有 误导 性 的 结果 。 








10.1.3 “小 心 方差 
另 一 件 需要 注意 的 事情 是 ， 在 进行 A/B 测试 时 一 定 要 小 心 方差。 


如 果 不 懂 数 据 科 学 ， 人 们 就 会 经 常 犯 这 样 一 个 错误 。 他们 在 网 页 上 进行 一 个 测试 , 例如 比较 
蓝 色 按 钮 和 橙色 按钮 ， 在 运行 了 一 个 星期 之 后 ， 计 算出 每 个 组 的 平均 消费 额 。 然 后 ， 他 们 就 说 : 
“看 ! 使 用 蓝 色 按钮 的 人 比 使 用 橙色 按钮 的 人 平均 多 花 了 1 美元 ， 蓝 色 更 好 ， 我 喜欢 蓝 色 ， 我 要 
把 网 址 全 部 换 成 蓝 色 按钮 1” 


但 实际 上 , 他 们 所 见 到 的 可 能 都 仅仅 是 购买 行为 的 随机 变动 。 他 们 没有 足够 的 样本 ,因为 人 
们 的 购买 行为 不 会 很 多 。 网 站 的 浏览 量 虽然 很 大 , 但 购买 行为 没有 那么 多 , 而且 购买 金额 的 方差 
非常 大 ， 因 为 不 同 产 品 的 价格 也 不 一 样 。 


所 以 , 如 果 不 理解 这 些 结果 中 方差 的 作用 ,你 就 非常 容易 得 出 错误 结论 ， 导致 企业 长 期 内 资 
金 的 浪费 ， 而 不 是 获取 利润 。 本 童 后 面 将 会 介绍 测量 和 解释 方差 的 一 些 主要 方法 。 

































































你 一 定 要 让 企业 所 有 者 明白 ， 在 根据 A/B 测试 或 任何 网 上 实验 做 出 企业 决策 之 
前 ， 搞 清楚 方差 的 作用 并 对 其 进行 量化 是 非常 重要 的 。 

有 时 候 , 你 需要 选择 一 个 方差 较 小 的 转化 指标 。 像 收入 或 支出 这 些 指标 , 它们 的 方差 非常 大 ， 
要 想得到 一 个 显著 的 结果 ， 你 的 实验 花费 的 时 间 可 能 要 以 年 计 。 

如 果 你 想 考 虑 多 个 自身 方差 比较 小 的 指标 ， 比 如 订单 总 额 和 订单 数量 , 那么 相对 于 收入 , 从 
订单 数量 中 更 容易 发 现 有 用 的 信息 。 说 到 底 , 还 是 要 靠 个 人 的 判断 。 如 果 你 看 到 订单 数量 有 一 个 
显著 的 提升 ， 收 入 的 提升 却 不 是 那么 明显 ， 你 就 会 想 :“ 咽 ， 可 能 确实 有 些 有 利 的 事情 发 生 了 。?” 

但 是 ,统计 学 和 数据 量 能 告诉 你 的 唯一 一 件 事 就 是 一 项 效果 为 真实 的 概率 。 最 后 还 要 靠 你 自 
己 去 决定 这 项 效果 是 否 是 真实 的 。 下 面 我 们 将 对 此 做 更 详细 的 讨论 。 

本 节 的 关键 知识 点 就 是 ， 仪 看 均值 之 间 的 差异 是 不 够 的 。 当 你 试图 评价 一 项 实验 的 结果 时 ， 
不 但 要 考虑 均值 ， 还 要 考虑 方差 。 
















































































10.2 t 检 验 与 p 值 


如 果 经 过 A/B 测试 我 们 进行 了 一 项 修改 , 那么 如 何 确定 后 来 的 效果 是 由 修改 造成 的 , 还 是 随 
机 变动 呢 ? 有 两 种 统计 学 工具 可 以 帮助 解决 这 个 问题 ， 它 们 是 :检验 (或 称 t 统 计量 ) 和 pp 值 。 











下 面 来 学 习 一 下 关于 这 两 个 工具 的 更 多 知识 ， 以 及 如 何 使 用 它们 确定 一 项 实验 的 结果 是 否 令 人 
满意 。 

我 们 的 目标 是 确定 结果 是 否 真 实 。 这 个 结果 是 数据 本 身 内 在 的 随机 变动 造成 的 , 还 是 对 照 组 
和 测试 组 行为 之 间 实 际 的 、 统 计 显 著 的 改变 造成 的 ?1 检验 和 p 值 就 是 回答 这 些 问 题 的 一 种 方法 。 





























请 记 住 , 统计 显著 并 没有 什么 特殊 含义 ， 说 到 底 ， 它 就 是 一 种 个 人 判断 。 你 可 以 
各 选择 一 个 概率 作为 接受 一 个 结果 是 否 真实 的 标准 ,但 结果 总 有 一 定 概率 是 随机 变 
动 造 成 的 ， 你 一 定 要 让 利益 相关 人 明白 这 一 点 。 


10.2.1 t 统 计量 或 1 检验 


我 们 从 t 统 计量 开始 。t 统 计量 也 称 1 检验 , 它 是 对 照 组 和 实验 组 之 间 行 为 差异 的 一 种 度量 方 
式 ， 以 标准 误差 为 单位 进行 表示 。t 统计 量 是 基于 标准 误差 的 ， 标 准 误差 解释 了 数据 本 身 内 在 的 
变动 。 通 过 标准 误差 对 数据 进行 标准 化 , 我 们 就 可 以 得 到 考虑 了 方差 的 两 组 人 员 之 间 行 为 变化 的 
某 种 度量 方式 。 


1 统计 量 的 解释 方法 是 ， 较 高 的 ! 统 计量 值 意味 着 两 个 组 之 间 可 能 存在 真正 的 差异 ， 较 低 的 t 
统计 量 值 则 意味 着 差别 不 大 。 你 必须 确定 能 和 否 接受 这 种 差异 的 闪 值 。: 统计 量 的 符号 可 以 告诉 你 
差异 是 正 向 的 还 是 负 向 的 。 


如 果 你 比较 了 对 照 组 和 实验 组 ， 并 得 到 了 一 个 负 的 t 统 计量 ,那么 就 说 明 这 是 一 个 糟糕 的 修 
改 。 我 们 希望 :统计 量 的 绝对 值 尽 量 大 ， 那 应 该 有 多 大 呢 ? 这 很 难说 ， 随 后 我 们 会 通过 几 个 例子 
来 说 明 这 个 问题 。 


1 统计 量 要 假设 数据 服从 正 态 分 布 ， 当 研究 人 们 在 网 站 上 的 消费 额 时 ， 这 个 假设 是 可 以 满足 
的 ， 人 们 的 花费 基本 服从 正 态 分 布 。 


然而 ， 在 一 些 特殊 情况 下 ， 我 们 可 能 会 使 用 :统计 量 的 优化 版 本 。 例 如 ， 当 研究 点 击 率 时 ， 
会 使 用 费 舍 尔 精确 检验 ; 当 研究 每 个 用 户 的 交易 量 时 ,比如 他 们 看 了 多 少 个 网 页 , 会 使 用 检验 ; 
当 研究 订单 数量 时 , 则 经 常 使 用 卡 方 检验 。 有 时 候 , 你 会 在 一 个 特定 实验 中 检查 所 有 这 些 统计 量 ， 
然后 选 出 真正 适合 你 需要 的 那个 。 



















































































10.2.2 p 值 


P 值 比 t 统计 量 简 单 得 多 ， 因 为 你 不 用 考虑 有 和 多少 个 标准 差 ， 也 不 用 考虑 实际 值 的 意义 。p 
值 对 于 人 们 更 容易 理解 ， 它 是 与 企业 利益 相关 人 员 沟 通 实验 结果 时 更 好 的 一 种 工具 。 


P 值 是 实验 结果 满足 原 假设 的 概率 ， 也 就 是 对 照 组 和 实验 组 的 行为 没有 真正 差别 的 概率 。 如 
果 p 值 很 小 , 那么 改动 没有 效果 的 概率 就 很 低 。 这 种 说 法 就 像 负 负 得 正 ， 有 点 违背 直觉 , 但 你 只 
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要 这 样 理解 就 行 了 : 很 小 的 p 值 意味 着 你 的 修改 真正 有 效果 的 概率 非常 高 。 


我 们 希望 看 到 高 统计 量 和 低 p 值 ， 这 意味 着 一 个 非常 显著 的 结果 。 在 开始 实验 之 前 ， 你 需 
要 确定 实验 成 功 的 国 值 ， 也 就 是 说 要 和 企业 决策 者 确定 成 功 的 阔 值 。 


那么 ， 你 能 接受 多 大 的 p 值 作为 成 功 标准 呢 ?1%， 还 是 5%? 同样 ， 这 也 是 没有 真正 效果 、 
结果 只 是 因为 随机 变动 而 产生 的 概率 。 这 实际 上 也 是 一 种 个 人 选择 。 人 们 很 多 时 候 使 用 1%， 如 
果 觉 得 1% 过 于 冒险 , 有 时 候 也 使 用 5%。 但 因为 有 随机 数据 的 存在 , 所 以 你 的 结果 总 是 有 虚假 的 
可 能 。 

然而 , 你 可 以 选择 一 个 能 够 接受 的 概率 , 在 这 个 概率 水 平 上 你 就 可 以 认为 效果 是 足够 真实 的 ， 
是 一 种 比较 实际 的 做 法 。 

实验 结束 后 〈 后 面 会 介绍 应 该 何 时 宣布 实验 结束 )， 你 就 计算 出 p 值 。 如 果 p 值 小 于 你 选 定 
的 闪 值 ， 就 可 以 拒绝 原 假设 , 宣布 “这 种 修改 有 非常 高 的 可 能 性 产生 积极 的 或 消极 的 结果 。” 

如 果 是 个 积极 的 结果 ,你 就 可 以 在 整个 站 点 上 执行 这 种 更 改 , 它 也 不 再 是 一 种 实验 ,而 是 成 

为 了 网 站 的 一 部 分 ， 有 望 随 着 时 间 的 推移 给 你 带 来 滨 深 财源 。 如 有 果 是 个 消极 的 结果 ,你 就 可 以 停 
止 这 种 修改 ， 以 防 浪费 更 多 金钱 。 
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请 注意 , 当 你 的 实验 得 到 消极 结果 时 , A/B 测试 就 成 为 了 一 种 实际 的 成 本 。 所 以 ， 
不 要 运行 A/B 测试 太 长 时 间 ， 因 为 可 能 会 造成 资金 上 的 损失 。 





这 就 是 我 们 要 每 天 监测 实验 结果 的 原因 。 如 果 出 现 了 修改 会 对 网 站 造成 恶劣 影响 的 早期 迹 
象 ， 比 如 修改 中 有 程序 缺陷 或 其 他 严重 问题 , 那么 必要 时 就 可 以 提前 终止 这 种 修改 , 将 损害 控制 
在 一 定 范围 内 。 


下 面 举 一 个 实际 的 例子 来 看 看 如 何 使 用 Python 计算 1 统计 量 和 p 值 。 

















10.3 ”使 用 Python 计算 1 统计 量 和 p 值 


虚构 一 些 实验 数据 ， 然 后 使 用 t 统 计量 和 pp 值 确定 实验 结果 是 否 具 有 真实 的 效果 。 我 们 将 使 
用 虚构 的 实验 数据 计算 1 统计 量 和 p 值 ， 看 看 它们 的 用 法 以 及 在 Python 中 计算 它们 的 方法 。 






































10.3.1 使 用 实验 数据 进行 A/B 测试 
假设 我 们 要 在 一 个 网 站 上 进行 A/B 测试 ， 并 且 已 经 将 用 户 随 机 地 分 成 了 两 个 组 ，A 组 和 B 
组 , A 组 是 实验 组 , 作为 对 照 组 , B 组 将 按照 原来 的 方式 使 用 网 站 。 使 用 以 下 代码 进行 数据 准备 : 


import numpy as np 
from scipy import stats 


























A 
B 


np.random.normal (25.0, 5.0, 10000) 
np.random.normal (26.0, 5.0 


stats.ttest_ingd(A, B) 





在 这 段 示例 代码 中 ， 实 验 组 (A 组 ) 会 有 一 个 随机 分 布 的 购买 行为 ， 每 笔 交 易 的 平均 值 是 
25 美元 , 标准 差 是 5 美元 , 有 10 000 个 样本 。 而 在 之 前 的 网 站 上 , 每 笔 交 易 的 平均 值 是 26 美 元 ， 
标准 差 和 样本 量 都 不 变 。 可 以 看 出 , 这 个 实验 应 该 有 一 个 消极 的 结果 。 要 计算 出 1 统计 量 和 p 值 ， 
使 用 scipy 中 的 stats.ttest_ind 方法 就 可 以 了 。 只 要 将 实验 组 和 对 照 组 的 数据 传人 这 个 函 
数 ， 就 能 得 到 以 下 结 









































out[1]: Ttest indResult (statistic=-14.075196812141339, pvalue=8.8277957363196977e-45) 














在 这 个 例子 中 ，t 统 计量 是 -14。 人 负 号 说 明了 这 是 个 消极 的 修改 ,效果 非常 差 。p 值 非常 非常 
小 ， 意 味 着 这 个 结果 由 随机 因素 产生 的 可 能 性 极其 微小 。 





人 PD 请 注意 ， 要 宣布 结果 是 显著 的 需要 高 1 统计 量 和 低 p 值 。 


















































我 们 的 结果 就 是 这 样 的 , ! 统 计量 的 值 为 -14， 绝 对 值 非常 高 ,但 负 号 说 明了 这 是 一 个 非常 粳 
的 改动 。p 值 非常 小 ， 告 诉 我 们 这 个 结果 几乎 不 可 能 是 由 随机 变动 产生 的 。 


如 果 在 实际 工作 中 得 到 这 样 的 结果 ， 那 么 你 应 该 尽快 结束 这 个 实验 。 








当 两 个 组 之 间 没有 真正 差别 时 

















为 了 进行 合理 性 检查 , 我 们 把 问题 修改 一 下 , 使 得 两 个 组 之 间 没 有 真正 的 差别 。 我 们 要 修改 
B 组 ， 也 就 是 对 照 组 ， 让 它 与 实验 组 相同 ,均值 也 是 25， 标 准 差 和 样本 量 都 不 变 ， 如 下 所 示 : 


PB-= TD randon normal (25 07 .3.07, .L0000) 























stats.ttest_ind(A, B) 


再 运行 一 下 代码 ， 可 以 看 到 如 下 的 t 检 验 结果 。 














Out[2]: Ttest indResult (statistic=0.088886198511817435, pvalue=0.92917324220169051) 























请 注意 1 统计 量 是 以 标准 差 为 单位 的 ， 所 以 这 个 结果 说 明 修 改 没 有 什么 真正 效果 ， 除 非 有 更 
高 的 p 值 ， 即 超过 30%。 




















这 些 仍 然 是 相当 高 的 数值 。 随机 变动 还 是 一 个 潜在 的 问题 , 这 就 是 你 应 该 事先 确定 能 接受 的 
p 值 范围 的 原因 。 
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在 看 到 这 个 结果 之 后 ， 你 可 能 会 说 :“30% 的 概率 ， 还 不 算 大 精 糕 ， 我 们 可 以 接受 。 但 是 不 
行 ， 在 实际 工作 中 , p 值 应 该 小 于 5%， 最 好 小 于 1%，30% 这 个 值 意味 着 结果 真 的 不 是 很 好 。 所 
以 ,不 要 进行 事后 解释 了 ， 知 道 了 闵 值 ， 就 去 做 实验 吧 。 



































10.3.2 ”样本 量 有 关系 吗 
修改 一 下 样本 量 ， 在 相同 条 件 下 创建 数据 集 ， 看 看 提高 样本 量 之 后 会 不 会 出 现行 为 差异 。 
1. 将 样本 量 提高 到 6 位 数 
将 样本 量 从 10 000 提高 到 100 000， 如 下 所 示 : 


A 
B 

















np.random.normal (25.0, 
np.random.normal (25.0, 


100000) 
100000) 


Ll 


S50 
5..03 
stats.ttest_ind(A, B) 


在 下 面 的 输出 结果 中 ， 你 可 以 看 到 值 变 小 了 一 些 ,t 统 计量 则 变 大 了 一 些 , 但 还 不 足以 宣 
布 两 组 数据 之 间 有 真正 的 差异 。 事 情 并 没有 向 你 希望 的 方向 发 展 ， 很 有 趣 吧 ?! 





out [6]: Ttest indResult (statistic=0.20964627681745385, pvalue=0.83394397202032966) 














这 两 个 值 还 是 比较 高 。 同 样 ， 可 能 是 随机 变动 的 作用 ,而且 它 的 作用 比 你 想象 的 还 要 大 ， 特 
别 是 在 研究 网 站 订单 总 额 的 时 候 。 


2. 将 样本 量 提高 到 7 位 数 
将 样本 量 提高 到 1 000 000， 如 下 所 示 : 


A 
B 




















np.random.normal (25.0, 
np.random.normal (25.0, 


1000000) 
1000000) 


Le 


5 人 
5507 
Stats.ttest_indq(A，B) 


结果 如 下 。 








Out[1]: Ttest indResult(statistic=0.4064966106696687, pvalue=0.684377790317007) 








怎么 搞 的 ? 7 统 计量 的 值 还 是 在 1 以 下 , p 值 则 在 35% 左 右 "。 
由 此 可 知 ， 当 增加 样本 量 时 ， 结 果 可 以 向 任 一 方向 波动 。 这 说 明 样本 量 从 10 000 到 100 000 














再 到 1 000 000 根 本 不 会 改变 你 的 结果 。 运 行 这 样 的 实验 是 一 种 非常 好 的 方法 ， 它 能 让 你 对 实验 


























需要 多 长 时 间 有 一 个 直觉 上 的 把 握 。 要 得 到 一 个 显著 的 结果 , 需要 多 少 样本 呢 ? 如 果 你 事先 对 数 
据 分 布 有 所 了 解 ， 就 可 以 像 这 样 运行 模型 。 

3. A/A 测试 

如 果 数 据 集 和 自己 比较 ， 则 称 为 A/A 测试 ， 示 例 代码 如 下 : 

Stats.ttest_ind(A，A) 


在 下 面 的 输出 结果 中 可 以 看 到 ，! 统计 量 为 0, p 值 为 1.0， 因 为 这 两 个 数据 集 之 间 实 际 上 没 
有 任何 区 别 。 























Out[10]: Ttest indResult {statistic=0.0, pvalue=1 .0) 





如 果 使 用 网 站 真实 数据 进行 A/A 测试 ,测试 同一 个 人 却 得 到 了 和 上 面 不 同 的 结果 ， 这 就 说 
明 测试 的 系统 出 了 问题 。 但 归根 结 底 ， 就 像 前 面 说 过 的 ， 这 都 是 个 人 判断 。 

自己 去 练习 一 下 吧 , 看 看 不 同 的 标准 差 对 初始 数据 集会 有 什么 影响 , 再 看 看 不 同 的 均值 和 样 
本 量 。 我 希望 你 动手 去 做 ， 在 不 同 的 数据 集 上 进行 试验 ， 并 实际 运行 一 下 ， 看 看 对 1 统计 量 和 p 
值 有 什么 影响 。 和 希望 这 样 可 以 让 你 对 如 何 解释 结果 有 更 深 的 理解 。 


























再 强调 一 下 ,我们 要 的 是 高 1 统计 量 和 低 p 值 , p 值 可 能 会 成 为 你 与 企业 进行 沟 
0 通 时 的 内 容 。 请 记 住 , p 值 越 小 越 好 ， 项 望 它 只 有 一 位 ， 最 好 在 1% 以 下 。 
本 章 余下 内 容 中 会 再 讨论 一 下 A/B 测试 。 给 定 一 组 数据 , 使 用 SciPy 可 以 非常 容易 地 计算 出 
1 统计 量 和 pp 值 ， 所 以 ,你 可 以 非常 容易 地 比较 对 照 组 和 实验 组 之 间 的 行为 ， 并 测量 效果 是 真实 
的 还 是 由 于 随机 变动 而 产生 的 概率 。 在 进行 比较 时 , 一 定 要 将 主要 精力 放 在 这 些 指标 和 你 所 关心 
的 转化 指标 上 。 




















10.4 ”确定 实验 持续 时 间 

你 的 实验 应 该 持续 多 长 时 间 ? 需要 多 久 才 能 得 到 一 个 实际 结果 ?应 该 在 什么 时 候 放 弃 这 个 
实验 ? 下 面 来 更 详细 地 讨论 一 下 这 些 问题 。 

如 果 公司 里 有 人 开发 了 一 项 新 实验 来 测试 他 们 进行 的 一 项 新 修改 , 那 他 们 肯定 乐于 看 到 实验 
成 功 。 因 为 投入 了 大 量 精力 和 时 间 ， 所 以 当然 希望 实验 成 功 了 。 或 许 测试 进行 了 几 个 星期 之 后 ， 
还 是 得 不 到 一 个 显著 的 结果 , 不管 是 积极 的 还 是 消极 的 。 你 知道 ,开发 人 员 肯 定 强烈 希望 继续 进 
行 实验 ， 并 和 希望 最 终 有 个 积极 的 结果 。 但 决定 实验 持续 多 长 时 间 的 还 是 你 自己 。 


如 何 知 道 什么 时 候 结束 A/B 测试 呢 ? 我 的 意思 是 , 在 得 到 一 个 显著 结果 之 前 , 我 们 很 难 预 测 
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实验 要 花 多 少时 间 。 但 如 果 得 到 了 显著 的 结果 ， 如 果 p 值 小 于 1%、5% 或 你 选 定 的 某 个 阔 值 , 那 
么 实验 就 可 以 结束 了 。 


这 时 结束 实验 。 如 果 结 果 积极 ， 就 大 面积 地 推广 这 种 修改 ; 如 果 结 果 消 极 ， 就 取消 修改 。 你 
可 以 告诉 开发 人 员 ， 回 过 头 去 再 试 一 次 ， 根 据 在 实验 中 学 习 到 的 知识 ， 将 修改 做 得 更 好 一 些 。 


还 有 一 种 可 能 ， 就 是 实验 结果 根本 不 会 收敛 。 如 果 随 着 时 间 的 变化 , p 值 根本 看 不 出 什么 趋 
势 , 那么 就 充分 谨 明 实验 结果 永远 不 会 收敛 。 不 管 实验 持续 多 长 时 间 ， 都 不 会 对 行为 产生 可 以 测 


量 的 影响 。 


在 这 种 情况 下 ， 你 应 该 每 天 都 把 实验 的 p 值 和 + 统计 量 (或 能 确定 实验 成 功 的 其 他 指标 ) 记 
录 在 一 张 图 上 ， 如 果实 验 有 和 希望 成 功 ， 你 就 会 看 到 书 值 随 着 时 间 的 推移 逐步 下 行 。 实 验 获得 的 数 
据 越 多 ， 得 到 的 结果 就 越 显 车 。 

但 是 , 如 果 你 看 到 一 条 平行 的 直线 或 一 条 乱七八糟 的 折线 ,它们 则 说 明 不 了 p 值 的 任何 趋势 。 
这 时 不 管 实验 的 时 间 有 多 长 ， 都 不 会 得 到 什么 结果 。 你 们 需要 事先 达成 一 致 ， 即 在 这 种 看 不 出 己 
值 趋势 的 情况 下 ， 实 验 持续 的 最 长 时 间 是 多 久 。 两 周 ? 还 是 一 个 月 ? 





















































另外 需要 注意 的 一 个 问题 是 , 如 果 网 站 上 同时 进行 的 实验 不 止 一 项 , 那么 它们 的 
结果 可 能 会 混在 一 起 。 








时 光一 去 不 复 返 ， 实 验 时 间 是 非常 宝贵 的 。 一 年 时 间 内 ， 你 应 该 尽量 多 做 几 次 实验 。 所 以 ， 
如 果 在 结果 没有 希望 收敛 的 实验 上 花费 太 多 时 间 的 话 , 那么 这 种 时 间 的 浪费 就 会 让 你 错过 进行 为 
一 项 更 有 价值 的 实验 的 机 会 。 

一 定 要 确定 实验 的 时 间 期 限 ， 因 为 在 网 站 上 进行 A/B 测试 时 , 时 间 是 非常 宝贵 的 资源 , 特别 
是 当 你 的 想法 很 多 , 但 时 间 不 够 用 的 时 候 就 更 是 这 样 。 一 定 要 先 确定 花费 在 某 项 实验 上 的 最 长 时 
间 ， 然 后 才能 开始 实验 ， 如 果 看 不 到 p 值 有 令 人 鼓舞 的 趋势 ， 就 应 该 果断 结束 实验 。 




















10.5 ”A/B 测试 中 的 陷阱 


我 要 强调 的 一 点 是 ， 即 使 你 使 用 了 像 bp 值 这 种 原则 性 的 度量 方法 ，A/B 测试 的 结果 也 不 一 定 
是 完全 正确 的 。 有 很 多 因素 可 以 使 实验 结果 出 现 偏差 .导致 你 做 出 错误 的 结论 。 下 面 我 们 就 介绍 
几 种 A/B 测试 中 的 陷阱 ， 并 告诉 你 如 何 去 避 免 它们 。 


万 值 为 1% 意 味 着 实验 结果 不 真实 或 由 随机 因素 造成 的 可 能 性 只 有 1%, 这 是 一 种 冠冕 堂皇 的 
说 法 。p 值 并 不 是 判定 实验 是 否 成 功 的 唯一 标准 。 需 要 加 以 注意 的 是 ， 有 很 多 因素 可 以 使 实验 结 
果 发 生 偏 离 和 混淆 。 即 使 得 到 了 一 个 非常 令 人 振奋 的 p 值 , 实验 结果 还 是 可 以 向 你 说 谎 ， 你 需要 
了 解 发 生 这 种 情况 的 原因 ， 避 免 做 出 错误 决策 。 













































































0 请 记 住 ， 相 关 性 并 不 意味 着 因果 关系 。 





即使 一 个 设计 非常 精巧 的 实验 , 也 只 能 告诉 你 最 后 的 效果 只 是 在 某 种 概率 上 是 由 所 做 的 修改 
引发 的 。 


归根 结 底 ， 不 真实 效果 的 可 能 性 总 是 存在 ,有 时 甚至 会 测量 出 错误 的 效果 。 随 机 因素 不 可 避 
免 ， 还 会 有 一 些 其 他 的 影响 因素 ,你 的 责任 就 是 让 企业 所 有 者 明白 ,实验 结果 是 需要 解释 的 ， 这 
也 是 决策 的 一 部 分 。 

但 实验 结果 不 能 作为 决策 的 唯一 依据 , 因为 结果 中 有 误差 空间 ， 有 很 多 因素 可 以 影响 实验 结 
果 。 如 果 这 些 修 改 不 只 是 为 了 提高 短期 收益 , 还 有 更 长 远 的 企业 目标 , 那么 也 应 当 把 这 个 因素 考 
虑 在 内 。 















































10.5.1 新 奇 性 效应 


一 个 问题 就 是 新 奇 性 效应 。A/B 测试 的 阿 喀 琉 斯 之 中 是 基本 上 都 是 运行 在 一 个 短期 期 限 内 ， 
这 会 引起 一 系列 问题 。 最 重要 的 问题 是 ,修改 会 有 长 期 的 效应 ,但 A/B 测试 没有 考虑 到 这 一 点 ， 
而 且 ， 网 站 上 的 修改 起 到 的 作用 也 是 有 限 的 。 


举 个 例子 ,或许 你 的 客户 已 经 习惯 于 在 网 站 上 看 到 橙色 按钮 , 如 果 突 然 出 现 了 一 个 蓝 色 按钮 ， 
确实 会 吸引 他 们 的 注意 力 , 但 这 只 是 因为 颜色 不 同 。 然 而 , 对 于 以 前 没有 来 过 网 站 的 新 客户 来 说 ， 
他 们 不 会 注意 到 这 种 变化 ,而 且 随 着 时 间 的 推移 ， 老 客户 也 会 习惯 新 按钮 。 如 果 一 年 后 这 个 实验 
还 在 持续 ， 那 么 非常 有 可 能 看 不 出 任何 差别 ， 其 至 会 变 为 完全 相反 的 效果 。 


在 测试 栖 色 按钮 和 蓝 色 按钮 的 区 别 时 , 非常 有 可 能 出 现 这 种 情况 : 在 前 两 个 星期 内 ， 蓝 色 按 
钮 胜出 ， 人 们 使 用 蓝 色 按钮 购买 的 更 多 ， 因 为 它 与 以 前 不 同 ,更 吸引 注意 力 。 但 一 年 以 后 , 我 们 
进行 男 一 项 网 站 实验 , 将 蓝 色 按钮 换 成 柳 色 按钮 ,很 可 能 柱 色 按钮 会 胜出 , 仪 仅 因 为 柳 色 按钮 是 
新 奇 的 ， 能 吸引 人 们 的 眼球 。 


因为 这 个 原因 , 如果 你 进行 了 可 能 有 争议 的 修改 , 那么 一 个 非常 好 的 做 法 就 是 以 后 再 运行 一 
次 实验 , 看 看 能 否 重复 之 前 的 结果 。 这 是 我 所 知道 的 唯一 能 克服 新 奇 性 效应 的 方法 ,也 就 是 在 新 
奇 性 过 去 之 后 ， 在 这 项 修改 不 仅仅 因为 与 之 前 不 同 才 吸引 人 们 注意 的 时 候 ， 再 测量 一 次 。 

绝对 不 能 低估 新 奇 性 效应 的 重要 性 , 它 确 实 能 够 使 很 多 实验 结果 出 现 偏 差 , 会 让 你 对 一 些 改 
变 做 出 虚假 的 正面 评价 , 实际 上 正面 效果 根本 不 存在 。 就 其 本 身 而 言 ， 改 变 不 一 定 就 是 好 事 , 至 
少 在 本 书 中 如 此 。 
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10.5.2 ”季节 性 效应 


如 果 你 的 实验 时 间 中 经 历 了 圣诞 节 ， 那 么 人 们 在 圣诞 节 的 行为 会 和 一 年 中 其 余 时 间 明 显 不 
同 。 人 们 在 圣诞 节 期 间 的 消费 方式 和 平时 非常 不 一 样 ,他 们 会 花 更 多 时 间 在 家 里 陪伴 家 人 ， 基 本 
上 与 工作 脱离 开 ， 所 以 思维 方式 会 有 些 改变 。 


季节 性 效应 中 甚至 会 包括 天 气 因 素 。 在 夏季 ， 人 们 的 行为 会 发 生变 化 ,因为 天 气 炎热 ， 人 们 
会 感到 情 懒 ,经 常会 出 去 度假 。 如 果 你 做 实验 的 时 候 ， 正 好 某 个 人 口 密集 地 区 发 生 了 暴风 雨 ， 那 
么 这 也 会 使 结果 发 生 偏离 。 

要 意识 到 潜在 的 季节 性 效应 , 假期 是 需要 注意 的 一 个 大 问题 , 如 果 在 有 季节 性 效应 的 时 间 内 
做 实验 ， 一 定 要 对 实验 结果 持 怀疑 态度 。 

你 可 以 对 季节 性 效应 进行 量化 , 方法 是 使 用 那些 确定 实验 是 否 成 功 的 指标 ,也 就 是 转换 度 指 
标 ,检查 一 下 去 年 同一 时 期 这 个 指标 的 表现 。 每 年 都 会 有 季节 性 的 波动 吗 ?如 果 有 ,就 要 尽量 如 
免 在 波峰 或 波 谷 时 期 进行 实验 。 






























































10.5.3 ”选择 性 偏差 


男 一 个 会 影响 实验 结果 的 潜在 问题 是 选择 性 偏差 。 客 户 应 该 被 随机 地 分 配 到 对 照 组 和 实验 
组 ,也 就 是 A 组 和 B 组 中 ， 这 非常 重要 。 


但 是 ， 由 于 一 些微 妙 的 因素 ， 随 机 分 配 其 实 不 随机 。 例 如 ， 在 通过 对 客户 ID 进行 散 列 化 的 
方法 将 客户 分 配 到 某 个 组 中 的 时 候 , 散 列 函数 在 处 理 低 值 客户 ID 时 会 和 处 理 高 值 客户 ID 时 有 些 
微妙 的 偏差 。 这样 产生 的 效果 就 是 ,更 容易 将 长 期 的 、 忠 实 的 客户 分 配 到 对 照 组 中 ， 而 将 那些 不 
熟悉 的 新 客户 分 配 到 实验 组 中 。 


这 样 ， 你 度量 的 其 实 就 是 老 客户 和 新 客户 之 间 的 行为 差异 。 所 以 ， 对 系统 的 审核 非常 重要 ， 
要 确定 在 将 人 们 分 配 到 对 照 组 和 实验 组 中 时 ， 没 有 选择 性 偏差 。 


还 要 保证 这 种 分 配 具 有 一 定 的 稳定 性 。 如 果 你 正在 测量 一 项 修改 在 一 个 完整 时 期 内 的 效果 ， 
那么 要 测量 的 是 人 们 是 否 看 到 了 网 页 A 的 变化 。 但 是 ， 确 实 有 一 些 效果 是 通过 网 页 C 转化 过 来 
的 ， 这 时 你 就 要 确定 在 点 击 过 程 中 ， 人 们 没有 更 换 分 组 。 所 以 ,你 要 保证 在 一 个 特定 时 期 内 人 们 
的 分 组 是 不 变 的 ， 而 且 如 何 定义 时 期 也 没有 一 个 明确 的 标准 。 

现在 ,已 经 有 一 些 成 熟 的 现成 框架 可 以 解决 这 些 问题 ,比如 Google Experiments 或 Optimizely， 


你 不 需要 “重新 发 明 轮 子 ”"。 如 有 果 你 的 公司 有 自己 的 内 部 解决 方案 , 不 愿意 和 其 他 公司 分 享 数据 ， 
那么 就 需要 好 好 审核 一 下 ， 看 看 是 否 有 选择 性 偏差 。 

































































































































































审核 选择 性 偏差 
审核 选择 性 偏差 的 一 种 方法 是 进行 A/A 测试 ， 这 种 方法 我 们 在 前 面 介绍 过 。 如 果 一 项 实验 
确实 在 实验 组 和 对 照 组 之 间 没有 任何 区 别 , 那么 实验 结果 肯定 看 不 出 什么 差别 。 在 比较 这 样 两 个 
分 组 时 ， 他 们 的 行为 不 会 有 任何 改变 。 
A/A 测试 是 测试 A/B 测试 框架 本 身 的 一 种 好 方法 , 它 可 以 确定 A/B 测试 框架 中 没有 内 部 偏差 
或 其 他 需要 明确 的 问题 ， 比 如 因果 关系 倒转 ， 等 等 。 

















10.5.4 数据 污染 


男 一 个 严重 问题 是 数据 污染 。 我们 已 经 充分 讨论 了 对 输入 数据 进行 清理 的 重要 性 , 而 在 A/B 
测试 中 , 数据 清理 尤为 重要 。 如 果 有 一 个 机 需 人 ， 即 一 个 不 断 爬 取 网 页 数据 的 恶意 爬虫 , 产生 了 














大 量 不 真实 的 交易 数据 , 那 会 造成 什么 影响 ?如果 这 个 机 需 人 被 分 配 到 实验 组 或 对 照 组 中 , 那 该 
怎么 办 ? 





这 个 机 器 人 会 给 你 的 实验 结果 市 来 偏差 。 在 进行 实验 时 , 非常 重要 的 一 件 事 就 是 研究 它 的 输 
入 ， 要 找 出 异常 值 ， 然 后 分 析 有 异常 值 的 性 质 ， 确 定 是 否 应 该 将 异常 值 排除 掉 。 你 实际 测量 过 机 器 
人 产生 的 数据 吗 ? 它们 影响 了 你 的 实验 结果 吗 ? 这 都 是 司空 见 惯 的 事情 ,一 定 要 意识 到 这 个 问题 。 


可 能 有 一 些 恶意 机 器 人 , 也 可 能 有 人 试图 入 侵 你 的 网 站 , 还 可 能 有 一 些 为 搜索 引擎 爬 取 网 站 
的 无 恶意 聆 虫 。 网 站 上 的 行为 千奇百怪 ， 你 应 该 对 这 些 行 为 进行 筛选 ， 找 出 那些 真正 的 客户 ， 而 
不 是 自动 脚本 。 数 据 污染 是 一 个 非常 有 挑战 性 的 问题 ， 也 是 我 们 选择 使 用 像 Google Analytics 这 
种 现成 框架 的 另 一 个 原因 。 
































10.5.5” 归 因 错 误 
前 面 简单 介绍 过 归 因 错误 。 当 你 考虑 一 个 来 自 下 游 的 修改 行为 时 , 它 的 效果 是 非常 不 明确 的 。 


你 必须 知道 如 果 计 量 这 些 来 自 下 游 的 转化 , 你 可 以 使 用 一 个 函数 , 它 基于 与 你 的 修改 之 间 的 
距离 来 计算 某 种 下 游行 为 的 效果 ， 关 于 如 何 计量 这 种 效果 ， 你 应 该 事先 和 企业 所 有 者 达成 一 致 。 
当 同 时 进行 多 个 实验 时 , 你 也 需要 小 心 。 它 们 彼此 会 发 生 冲 突 吗 ? 在 某 个 网 页 流 的 同一 会 话 中 会 
同时 有 两 个 不 同 实验 存在 的 情况 吗 ? 

如 果 有 ,就 会 出 现 问 题 , 你 必须 凭借 自己 的 判断 来 确定 这 些 修改 是 否 会 互相 干涉 ,并 在 某 种 
程度 上 影响 客户 的 行为 。 你 需要 对 这 样 的 实验 结果 持 怀 疑 态度 。 有 许多 因素 可 以 影响 实验 结果 ， 
必须 加 以 注意 。 此 外 ， 你 还 应 该 确保 企业 所 有 者 也 知道 A/B 测试 的 这 些 局 限 性 。 


如 果 你 在 一 项 实验 上 没有 投入 足够 的 时 间 和 精力 , 那么 也 应 该 对 实验 结果 持 怀疑 态度 , 最 好 
以 后 再 找 个 时 间 重 新 测试 一 下 。 















































10.6 小结 273 





10.6 ”小结 


本 章 介绍 了 A/B 测试 的 概念 和 存在 的 问题 。 通过 儿 个 实际 的 例子 , 说 明了 如 何 使 用 1 统计 量 
和 pp 值 来 度量 方差 的 作用 , 并 使 用 Python 代码 计算 出 了 + 检验 的 结果 。 然 后 , 讨论 了 A/B 测试 的 
短期 性 本 质 以 及 它 的 一 些 局 限 性 ， 比 如 新 奇 性 效应 和 季节 性 效应 。 


本 书 内 容 到 此 结束 , 能 将 本 书 学 完 真是 一 项 了 不 起 的 成 就 ! 祝贺 你 , 你 应 该 为 自己 感到 骄傲。 
本 书 介绍 了 大 量 内 容 , 希望 你 至 少 理解 了 当今 数据 科学 中 常用 技术 的 概念 , 并 获得 了 一 些 实用 的 
经 验 。 数 据 科学 博大 精深 ， 你 已 经 对 它 有 了 一 个 全 面 的 了 解 ， 再 次 祝贺 你 ! 


如 果 想 在 这 个 领域 更 进一步 , 那么 建议 你 和 你 的 老板 谈 一 谈 。 如 果 你 在 公司 里 能 接触 到 一 些 
有 趣 的 数据 , 那 就 看 看 能 和 否 处 理 这 些 数据 。 当 然 , 在 和 老板 谈话 之 前 , 不 要 使 用 公司 的 任何 数据 ， 
因为 会 有 一 些 隐私 方面 的 限制 。 你 需要 确定 不 会 侵犯 公司 客户 的 隐私 权 , 这 意味 着 你 只 能 在 工作 
场所 的 一 个 可 控 环 境 中 使 用 和 查看 这 些 数 据 。 所 以 ， 一 定 要 小 心 。 


如 果 获 得 了 授权 ,那么 建议 你 在 工作 之 余 花 上 几 天 或 一 周 时 间 , 好 好 地 研究 一 下 这 些 数据 集 ， 
看 看 能 使 用 它们 做 些 什么 。 不 但 要 表现 出 想 成 为 更 优秀 雇员 的 渴望 , 还 要 发 现 一 些 确实 对 公司 有 
价值 的 东西 ， 这 会 使 你 看 起 来 出 类 拨 茶 ， 从 此 在 公司 中 平步青云 。 


我 最 常 被 问 到 的 问题 是 :“ 我 是 一 名 工程 师 ， 想 更 多 地 参与 数据 科学 ， 该 怎么 做 呢 ? ”如 果 
你 想得到 一 些 职业 建议 , 那么 学 习 数 据 科学 的 最 好 方式 就 是 动手 去 做 ， 比 如 实际 参加 一 些 业 余 项 
目 ， 表现 出 你 在 数据 科学 方面 的 能 力 ， 并 展示 一 些 从 数据 中 获取 的 有 意义 的 结果 。 把 这 些 能 力 展 
示 给 你 的 老板 ， 然 后 看 看 它们 能 给 你 带 来 什么 。 祝 你 好 运 ! 
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